Аннотация:
В работе дана оценка границ применимости больших языковых моделей в редакционных задачах издательского процесса и установлен оптимальный формат взаимодействия между человеком и алгоритмическими системами.
Методологической основой исследования является сравнительный эксперимент, в рамках которого несколько популярных нейросетевых моделей (Alice AI, GigaChat, DeepSeek, Gemini и ChatGPT) выполнен статистический анализ контрольного текста на русском языке. Определялись количественные характеристики текста: числа слов, символов с пробелами и без пробелов, а также количества абзацев. Полученные результаты сопоставлялись с эталонными значениями, установленными с помощью текстового редактора MS Word, использующего детерминированный алгоритм подсчета символов.
Результаты эксперимента показали, что нейросетевые модели демонстрируют различную степень точности при выполнении задач количественного анализа текста. Основной причиной подобных ошибок являются архитектура больших языковых моделей и использование алгоритмов токенизации, которые разрывают прямую связь между символами и внутренним представлением текста в модели.
На основе полученных результатов предложена концепция гибридной архитектуры издательских информационных систем, в которой генеративные языковые модели используются для выполнения творческих и аналитических задач, а операции, требующие строгой формальной точности, передаются специализированным детерминированным микросервисам. Предложенный подход позволяет повысить надежность и предсказуемость работы интеллектуальных издательских систем.