• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Инструмент последовательного снятия снимков агрегированных данных из потоковых данных

Артем Игоревич Гурьянов, Азат Шавкатович Якупов
414-436
Аннотация:

В современном мире потоковые данные получили широкое распространение во многих предметных областях. Высокую актуальность имеет решение задачи обработки потоковых данных в реальном времени, с минимальной задержкой.


При потоковой обработке данных часто применяются различные приближенные алгоритмы, имеющие гораздо более высокую эффективность по времени и памяти, чем точные алгоритмы. Кроме того, часто возникает потребность прогнозирования состояния потока.


Таким образом, в настоящее время существует потребность в инструменте последовательного снятия снимков агрегированных данных из потоковых данных, дающем возможность прогнозирования состояния потока и применения приближенных алгоритмов обработки потоковых данных.


Авторами статьи разработан такой инструмент, рассмотрены архитектура и механизм его функционирования, а также оценены перспективы его дальнейшего развития.

Ключевые слова: потоковые данные, потоковая обработка данных, анализ потоковых данных, материализованные представления, потоковые алгоритмы, приближенные алгоритмы, прогнозирование потока.

Разработка cистемы поиска и индексирования контента аудиозаписей

Роман Алексеевич Климов, Азат Шавкатович Якупов
483-497
Аннотация:

Статья посвящена разработке системы поиска и индексации аудиофайлов с использованием автоматического распознавания речи (ASR) и Elasticsearch. Проанализированы актуальные системы транскрибирования аудиофайлов на русском языке и выбрана система whisper как лучшая. Создан алгоритм оптимизации скорости транскрибирования с помощью параллелизации процессов обработки файла, продемонстрирована его эффективность. Построена система на микросервисной архитектуре, способная индексировать контент аудиофайлов и их мета-данные для поиска. Результаты исследования показали, что предложенный подход может быть применен для создания эффективных и гибких систем поиска и аналитики аудиоинформации.

Ключевые слова: транскрибирование, индексирование, параллелизация, микросервисы, масштабируемость.

Разработка модуля проверки данных для удовлетворения метрики устаревания

Айгуль Ильдаровна Сибгатуллина, Азат Шавкатович Якупов
159-178
Аннотация:

Из года в год возрастает объем мирового рынка больших данных. Их анализ является неотъемлемой частью для принятия немедленных и надежных решений. Технологии больших данных ведут к значительному снижению стоимости за счет использования облачных сервисов, распределенных файловых систем, когда возникает потребность в хранении больших объемов информации. Их аналитика неразрывно связана с понятием качества данных, что особенно важно, если они имеют определенный срок хранения – метрику устаревания – и мигрируют из одного источника в другой, увеличивая риск потери данных. Предупреждение негативных последствий достигается за счет процесса сверки данных – комплексной проверки больших объемов информации с целью подтверждения их согласованности.


В статье рассмотрены вероятностные структуры данных, которые могут быть использованы для решения задачи, а также предложена реализация – модуль проверки целостности данных с использованием фильтра Блума с подсчетом. Данный модуль интегрирован в Apache Airflow для автоматизации процесса.

Ключевые слова: большие данные, метрика устаревания, партиция, parquet файл, фильтр Блума.
1 - 3 из 3 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2025 Казанский (Приволжский) федеральный университет; Институт развития информационного общества