Разработка cистемы поиска и индексирования контента аудиозаписей

Main Article Content

Роман Алексеевич Климов
Азат Шавкатович Якупов

Аннотация

Статья посвящена разработке системы поиска и индексации аудиофайлов с использованием автоматического распознавания речи (ASR) и Elasticsearch. Проанализированы актуальные системы транскрибирования аудиофайлов на русском языке и выбрана система whisper как лучшая. Создан алгоритм оптимизации скорости транскрибирования с помощью параллелизации процессов обработки файла, продемонстрирована его эффективность. Построена система на микросервисной архитектуре, способная индексировать контент аудиофайлов и их мета-данные для поиска. Результаты исследования показали, что предложенный подход может быть применен для создания эффективных и гибких систем поиска и аналитики аудиоинформации.

Article Details

Библиографические ссылки

1. AWS Kendra Transcribe Media Search. URL: https://github.com/aws-samples/aws-kendra-transcribe-media-search
2. Noor J., Rownak A., Ratul R., Mondal J. Sherlok in OSS: A Novel Approach of Content-Based Searching on Object Storage System. 2023. URL: https://arxiv.org/pdf/2303.02105.pdf.
3. Swift Object Storage. URL: https://www.openstack.org/software/releases/zed/components/swift
4. Adrakatti A., Mulia K.R. Research Challenges of Library and Information Science in retrieving content based Multimedia Information. 2023. URL:https://www.researchgate.net/publication/361107734_Research_Challenges_of_Library_and_Information_Science_in_retrieving_content_based_Multimedia_Information.
5. Google Speech. URL: https://console.cloud.google.com/speech/overview.
6. Vosk. URL: https://github.com/alphacep/vosk.
7. Yandex SpeechKit. URL: https://cloud.yandex.com/en/services/speechkit.
8. Whisper. URL: https://github.com/openai/whisper.
9. Подопригорова Н. С., Подопригорова С. С., Кан А. Д. Автоматическое распознавание речи в системе информационного поиска по аудио // Искусственный интеллект в автоматизированных системах управления и обработки данных, Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет). 2022. Т. 2. С. 339–345.
10. Morris A., Maier V., Green P. From WER and RIL to MER and WIL. 2004. URL:https://www.isca-speech.org/archive_v0/archive_papers/interspeech_2004/i04_2765.pdf.
11. JiWER: A Simple and Fast Python Package to Evaluate an Automatic Speech Recognition System. URL: https://github.com/jitsi/jiwer
12. Whisper.cpp. URL: https://github.com/ggerganov/whisper.cpp
13. Faster-whisper. URL: https://github.com/guillaumekln/faster-whisper
14. CTranslate2. URL: https://github.com/OpenNMT/CTranslate2/
15. Prompt vs prefix in DecodingOptions. URL: https://github.com/openai/whisper/discussions/117
16. FFmpeg. URL: https://ffmpeg.org/
17. ElasticSearch. URL: https://www.elastic.co/
18. ElasticSearch More like this query URL: https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-mlt-query.html