Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

О применимости нейросетей в издательском деле

Сухайлии Илхом Ширинбегзода, Даниил Андреевич Шишкин, Богдан Сергеевич Усманов, Николай Михайлович Боргест

960-975

Аннотация:

В работе дана оценка границ применимости больших языковых моделей в редакционных задачах издательского процесса и установлен оптимальный формат взаимодействия между человеком и алгоритмическими системами.

Методологической основой исследования является сравнительный эксперимент, в рамках которого несколько популярных нейросетевых моделей (Alice AI, GigaChat, DeepSeek, Gemini и ChatGPT) выполнен статистический анализ контрольного текста на русском языке. Определялись количественные характеристики текста: числа слов, символов с пробелами и без пробелов, а также количества абзацев. Полученные результаты сопоставлялись с эталонными значениями, установленными с помощью текстового редактора MS Word, использующего детерминированный алгоритм подсчета символов.

Результаты эксперимента показали, что нейросетевые модели демонстрируют различную степень точности при выполнении задач количественного анализа текста. Основной причиной подобных ошибок являются архитектура больших языковых моделей и использование алгоритмов токенизации, которые разрывают прямую связь между символами и внутренним представлением текста в модели.

На основе полученных результатов предложена концепция гибридной архитектуры издательских информационных систем, в которой генеративные языковые модели используются для выполнения творческих и аналитических задач, а операции, требующие строгой формальной точности, передаются специализированным детерминированным микросервисам. Предложенный подход позволяет повысить надежность и предсказуемость работы интеллектуальных издательских систем.

Ключевые слова: искусственный интеллект, издательское дело, большие языковые модели, нейросети, автоматизация, токенизация, редакционный процесс.

Анализ эффективности субсловных токенизаторов в малоресурсной лингвистической среде: опыт реализации на таджикском языке

Муллошараф Курбонович Арабов, Светлана Сергеевна Хайбуллина

546-564

Аннотация:

Рассмотрены современные подходы к субсловной токенизации текстов применительно к малоресурсному таджикскому языку, характеризуемому сложной морфологической структурой и высокой вариативностью словоформ. В ходе исследования был сформирован и предварительно обработан масштабный разнородный корпус, включающий 99 книг и 134497 текстовых статей различных жанров и тематик, общий объем которого превышает 33 млн токенов. Корпус был очищен от шумов, нормализован и использован в качестве основы для обучения и последующего тестирования субсловных моделей.

На базе названного корпуса были обучены и проанализированы пять моделей токенизации, реализующих алгоритмы BPE, WordPiece и Unigram с использованием библиотек Hugging Face Tokenizers и SentencePiece. Сравнительная оценка проведена по ряду ключевых показателей, включая долю неизвестных слов (OOV), степень сжатия текстового представления, скорость токенизации, а также характеристики распределения n-грамм, позволяющие оценить способность моделей отражать морфологическую и структурную организацию языка. Результаты экспериментов позволили выявить сильные и слабые стороны различных подходов к субсловной сегментации и определить наиболее эффективные стратегии токенизации в условиях морфологической сложности
таджикского языка. Полученные выводы могут быть использованы при разработке языковых моделей и прикладных NLP-инструментов для таджикского и других малоресурсных языков, способствуя расширению их присутствия в цифровой среде.

Ключевые слова: таджикский язык, субсловная токенизация, малоресурсные языки, BPE, Word-Piece, Unigram, Hugging Face Tokenizers, SentencePiece, корпусная лингвистика, обработка естественного языка (NLP).

1 - 2 из 2 результатов