Найти

К вопросу о представлении синтагматических отношений морфем в векторных языковых моделях

Дарья Кирилловна Родионова, Ольга Александровна Митрофанова

898-918

Аннотация:

В работе рассмотрено представление семантической структуры производных слов в языковых моделях, учитывающее внутрисловные синтагматические отношения между словообразовательными морфемами. Эксперименты проводились с привлечением морфемных моделей НейроКРЯ, а также моделей fastText и ruRoBERTa. Проверена гипотеза о композициональности производных слов, представляемых в виде агрегированных векторов морфем, а также выполнено сравнение представлений семантических отношений с помощью морфемных векторов fastText и стандартных векторов подслов в модели ruRoBERTa. Полученные результаты указывают на умеренную чувствительность векторов fastText к синтагматическим связям между морфемами и словообразовательным типам. Установлено также что агрегация морфемных векторов в fastText улучшает регистрацию семантических отношений между словами, связанными словообразовательными отношениями, по сравнению с агрегацией векторов подслов в модели ruRoBERTa.

Стандартные токенизаторы BPE (Byte-Pair Encoding) и WordPiece, применяемые в моделях семейства Transformer, являются слабоинтерпретируемыми в отношении языковых данных, поскольку в них сегменты слов не всегда соответствуют морфемам. Исследовательская проблема состоит в необходимости оценки того, в какой мере современные языковые модели способны регистрировать лингвистические признаки, характеризующие отношения производных слов в словообразовательных гнездах.

В работе оценена способность предсказывающих моделей распределенных векторных вложений воспроизводить синтагматические связи между морфемами внутри производных слов и на уровне словообразовательных гнезд в русском языке.

Полученные результаты стимулируют разработку нейросетевых архитектур, учитывающих синтагматические отношения между морфемами, совершенствование морфемных токенизаторов и их интеграцию в языковые модели.

Ключевые слова: языковая модель, морфемный анализ, словообразовательные способы, композициональность.

Запросы к нереляционным данным на естественном языке на основе большой языковой модели

Адильбек Омирбекович Еркимбаев, Владимир Юрьевич Зицерман, Георгий Анатольевич Кобзев

76-98

Аннотация:

В работе рассмотрены новые возможности организации запросов на естественном языке к научным локальным базам данных нереляционного типа. Проведенный анализ исследований, выполненных за последние годы, показал активное внедрение запросов на естественном языке к базам данных различного типа. Отмечено активное применение методов машинного обучения (нейронных алгоритмов). Показано широкое использование в последние два года большой языковой модели для подготовки запросов в различных языковых средах и областях знаний. Проведено исследование новых возможностей графовой базы данных AllegroGraph по использованию больших языковых моделей для организации поиска на естественном языке. Функционал базы данных изучен на примере системы метаданных по теплофизическим свойствам веществ в форме предметной онтологии «Термаль». Тестирование поисковых запросов в двуязычной (английская и русская) среде базы данных выявило в целом преодолимые проблемы и дает хорошие надежды на дальнейшее применение новых прикладных сервисов с использованием больших языковых моделей.

Ключевые слова: запрос на естественном языке, большая языковая модель, эмбеддинг, нереляционные базы данных, графовая база данных, онтология предметной области.

Большие языковые модели в задаче разрешения лексической многозначности на материале русского языка

Полина Андреевна Гусяцкая, Наталья Валентиновна Лукашевич

1118-1132

Аннотация:

Статья посвящена описанию результатов экспериментов в области автоматического разрешения неоднозначности (англ. Word Sense Disambiguation, WSD) на материале русского языка при помощи генеративных (decoder-only) моделей малого и среднего размеров. Использование генеративных моделей напрямую не является оптимальным подходом к решению данной задачи, однако такие модели имеют потенциал в роли семантических разметчиков необработанных данных. Автоматизация семантической разметки текстов при помощи генеративных моделей потенциально способна преодолеть ограничивающий фактор в виде недостатка размеченных данных для обучения энкодеров.

Как показали более ранние исследования, флагманские англоязычные и мультиязычные модели способны достичь более 90%-ной аккуратности на данной задаче, модели меньшего размера – 80%+. Настоящее исследование ставит своей целью установить, решаема ли аналогичная задача на материале русского языка с помощью русифицированных моделей малого и среднего размеров (до 32 B), не требующих большого количества вычислительных ресурсов для использования.

Эксперименты по разрешению неоднозначности проведены как в базовой постановке (one/few-shot prompting), так и в различных модификациях (обогащение контекста словарной информацией – гиперонимами, гипонимами, метками тематической области и т. д., анализ широкого и узкого контекстных окон неоднозначной лексемы, ансамблевые подходы, в которых одна модель валидирует и корректирует предсказания другой). В качестве материала исследования использован русскоязычный размеченный ресурс RuSemCor, семантическая разметка которого соответствует категориям семантической сети RuWordNet.

По результатам экспериментов модели показали себя пригодными для решаемой задачи: все модели выходят за уровень случайного предсказания, а наиболее мощные достигают 80%-ной аккуратности, что сопоставимо с результатами англоязычных моделей того же размера. Более информативным для моделей показал себя широкий контекст неоднозначной лексемы. Подходы с дообогащением входных данных и ансамблевые методы дали значительный прирост в качестве.

Ключевые слова: разрешение лексической неоднозначности, большие языковые модели, компьютерная семантика, классификация.

Детекция галлюцинаций на основе внутренних состояний больших языковых моделей

Тимур Рустемович Айсин, Татьяна Вячеславовна Шамардина

1282-1305

Аннотация:

В последние годы большие языковые модели (Large Language Models, LLM) достигли значительных успехов в области обработки естественного языка и стали ключевым инструментом для решения широкого спектра прикладных и исследовательских задач. Однако с ростом их масштабов и возможностей все более острой становится проблема галлюцинаций – генерации ложной, недостоверной или несуществующей информации, представленной в достоверной форме. В связи с этим вопросы анализа природы галлюцинаций и разработки методов их выявления приобретают особую научную и практическую значимость.

В работе изучен феномен галлюцинаций в больших языковых моделях, рассмотрены их существующая классификация и возможные причины. На базе модели Flan-T5 также исследованы различия внутренних состоянии модели при генерации галлюцинаций и верных ответов. На основе этих расхождений представлены два способа детектирования галлюцинаций: с помощью карт внимания и скрытых состояний модели. Эти методы протестированы на данных из бенчмарков HaluEval и Shroom 2024 в задачах суммаризации, ответов на вопросы, перефразирования, машинного перевода и генерации определений. Кроме того, исследована переносимость обученных детекторов между различными типами галлюцинаций, что позволило оценить универсальность предложенных методов для различных типов задач.

Ключевые слова: большие языковые модели, галлюцинации, детекция, Flan-T5, обработка естественного языка, карты внимания, внутренние состояния, HaluEval, Shroom.

Анализ эффективности субсловных токенизаторов в малоресурсной лингвистической среде: опыт реализации на таджикском языке

Муллошараф Курбонович Арабов, Светлана Сергеевна Хайбуллина

546-564

Аннотация:

Рассмотрены современные подходы к субсловной токенизации текстов применительно к малоресурсному таджикскому языку, характеризуемому сложной морфологической структурой и высокой вариативностью словоформ. В ходе исследования был сформирован и предварительно обработан масштабный разнородный корпус, включающий 99 книг и 134497 текстовых статей различных жанров и тематик, общий объем которого превышает 33 млн токенов. Корпус был очищен от шумов, нормализован и использован в качестве основы для обучения и последующего тестирования субсловных моделей.

На базе названного корпуса были обучены и проанализированы пять моделей токенизации, реализующих алгоритмы BPE, WordPiece и Unigram с использованием библиотек Hugging Face Tokenizers и SentencePiece. Сравнительная оценка проведена по ряду ключевых показателей, включая долю неизвестных слов (OOV), степень сжатия текстового представления, скорость токенизации, а также характеристики распределения n-грамм, позволяющие оценить способность моделей отражать морфологическую и структурную организацию языка. Результаты экспериментов позволили выявить сильные и слабые стороны различных подходов к субсловной сегментации и определить наиболее эффективные стратегии токенизации в условиях морфологической сложности
таджикского языка. Полученные выводы могут быть использованы при разработке языковых моделей и прикладных NLP-инструментов для таджикского и других малоресурсных языков, способствуя расширению их присутствия в цифровой среде.

Ключевые слова: таджикский язык, субсловная токенизация, малоресурсные языки, BPE, Word-Piece, Unigram, Hugging Face Tokenizers, SentencePiece, корпусная лингвистика, обработка естественного языка (NLP).

Анализ моделей векторных представлений слов в задаче разметки семантических ролей в русскоязычных текстах

Лейсан Маратовна Кадермятова, Елена Викторовна Тутубалина

1026-1043

Аннотация: Изучено влияние использования векторных представлений слов на качество установления семантических ролей в русскоязычных текстах. Задача установления семантических ролей в русскоязычных текстах получила широкое распространение после выхода на свет корпуса FrameBank. Были исследованы модели векторных представлений слов word2vec, fastText и ELMo (Embeddings from Language Models). Анализировались метрики качества микро- и макро-F1 как оценочные показатели результатов автоматической разметки актантов. Был проведен ряд экспериментов, демонстрирующих, что модели ELMo, основанные на токенах предикатно-аргументных конструкций, показывают больший прирост качества по сравнению со всеми остальными моделями, в том числе, в сопоставлении с моделями ELMo, обученными на леммах, как по величине микро-F1, так и по величине макро-F1.

Ключевые слова: машинное обучение, обработка естественного языка, векторные представления слов, семантические роли.

Система ограничений генерации для устранения структурных ошибок при создании дерева зависимостей с помощью большой языковой модели

Елена Денисовна Шамаева

1269-1292

Аннотация:

Для синтаксического анализа естественного языка перспективным направлением является дообучение больших языковых моделей для генерации синтаксической структуры предложения в виде скобочной последовательности формата Grammatical Relation Centered Tree (GRCT). Существующие дообученные модели демонстрируют высокие значения метрик оценки качества синтаксического анализа, однако в некоторых случаях генерируют некорректную скобочную последовательность (например, с несбалансированным числом открывающих и закрывающих скобок). В работе разработан метод, позволяющий уменьшить количество некорректно сгенерированых последовательностей. Для этого создана многоэтапная система ограничений субтокенов, генерируемых на каждом этапе работы большой языковой модели. Реализация этого метода протестирована на 4 моделях (адаптированные и неадаптированные модели размерами 4 и 8 млрд параметров) на датасете деревьев зависимостей SynTagRus. Для всех моделей количество некорректно сгенерированных последовательностей уменьшилось. Дополнительно установлено, что такие ограничения на генерацию влияют на качество собственно синтаксического анализа (может происходить повышение или понижение метрик оценки качества синтаксического анализа). Реализованная система ограничений может быть использована для повышения надежности работы любой большой языковой модели, дообученной для синтаксического анализа в формате скобочной последовательности GRCT. Полученные результаты опубликованы в открытом доступе.

Ключевые слова: синтаксический анализ, большие языковые модели, дообучение, ограничение вывода, автоматическая обработка текстов.

Сравнительный анализ текстов геологических публикаций с использованием больших языковых моделей

Михаил Иванович Патук, Вера Викторовна Наумова

806-821

Аннотация:

Стремительный рост объема публикаций во всех областях геологических наук делает критически важным внедрение методов автоматизированной обработки научных текстов. Одним из наиболее перспективных инструментов для решения этой задачи выступают большие языковые модели на основе нейронных сетей. Огромный прорыв в области искусственного интеллекта за последние годы превратил такие модели в незаменимых помощников для исследователей.
Наши работы по семантическому поиску публикаций с использованием дополнительно тренированных языковых моделей и нахождения меры близости геологических текстов показали хорошие результаты. Но используемые модели оказались неспособны выполнить глубокий анализ текстов. Сравнительный анализ современных архитектур позволил нам выделить модель DeepSeek R1, относящуюся к классу систем с расширенными возможностями логического вывода. Данный тип моделей демонстрирует принципиально новый уровень качества генерации. На базе выбранной модели разработан веб-сервис, предоставляющий уникальный функционал, осуществляющий сравнительный анализ до 5 научных статей стандартного объема; поддержку мульти язычных источников (ввод текстов на английском, китайском, русском и др. языках); формирование структурированных отчетов на русском языке с выделением ключевых тезисов, противоречий и паттернов. Проведено тестирование предложенного подхода для сравнительного анализа геологических публикаций. Тестирование показало результаты, вызывающие доверие.

Ключевые слова: искусственный интеллект, большие языковые модели, обработка естественного языка, анализ текстов, геология.

О применимости нейросетей в издательском деле

Сухайлии Илхом Ширинбегзода, Даниил Андреевич Шишкин, Богдан Сергеевич Усманов, Николай Михайлович Боргест

960-975

Аннотация:

В работе дана оценка границ применимости больших языковых моделей в редакционных задачах издательского процесса и установлен оптимальный формат взаимодействия между человеком и алгоритмическими системами.

Методологической основой исследования является сравнительный эксперимент, в рамках которого несколько популярных нейросетевых моделей (Alice AI, GigaChat, DeepSeek, Gemini и ChatGPT) выполнен статистический анализ контрольного текста на русском языке. Определялись количественные характеристики текста: числа слов, символов с пробелами и без пробелов, а также количества абзацев. Полученные результаты сопоставлялись с эталонными значениями, установленными с помощью текстового редактора MS Word, использующего детерминированный алгоритм подсчета символов.

Результаты эксперимента показали, что нейросетевые модели демонстрируют различную степень точности при выполнении задач количественного анализа текста. Основной причиной подобных ошибок являются архитектура больших языковых моделей и использование алгоритмов токенизации, которые разрывают прямую связь между символами и внутренним представлением текста в модели.

На основе полученных результатов предложена концепция гибридной архитектуры издательских информационных систем, в которой генеративные языковые модели используются для выполнения творческих и аналитических задач, а операции, требующие строгой формальной точности, передаются специализированным детерминированным микросервисам. Предложенный подход позволяет повысить надежность и предсказуемость работы интеллектуальных издательских систем.

Ключевые слова: искусственный интеллект, издательское дело, большие языковые модели, нейросети, автоматизация, токенизация, редакционный процесс.

Большие языковые модели в задаче оценки семантической близости словоупотреблений

Денис Владиславович Кокосинский

1133-1154

Аннотация:

В работе исследована применимость больших языковых моделей (Large Language Model, LLM) для решения задачи оценки семантической близости значений слова в паре словоупотреблений, известная как Word-in-Context (WiC) с опорой на мультиязычный бенчмарк CoMeDi. Предложены новые подходы к построению автоматических WiC-систем на основе LLM, в частности, конфигурация в которой предсказания LLM корректируются по обучающей выборке, но дообучения LLM при этом не требуется. Выполнено систематическое сравнение пяти различных конфигураций WiC-систем на основе LLM с точки зрения качества и с учетом вычислительных затрат. Результаты на тестовых выборках из семи языков показали, что предложенные подходы позволяют LLM превзойти все существующие специализированные системы, установив новый уровень качества на бенчмарке CoMeDi. Тем не менее достигнутое высокое качество сопряжено со значительным ростом вычислительных затрат: системы на базе LLM требуют на несколько порядков больше вычислений по сравнению с компактными специализированными моделями (такими как XL-DURel). Настоящая работа является одним из шагов к пониманию компромисса между точностью и ресурсоемкостью при использовании современных LLM в задачах лексической семантики.

Ключевые слова: Word-in-Context, большая языковая модель, обработка естественного языка.

Исследование квантования больших языковых моделей: оценка эффективности с акцентом на русскоязычные задачи

Дмитрий Романович Пойманов, Михаил Сергеевич Шутов

1138-1163

Аннотация:

Квантование стало ключевой техникой сжатия и ускорения больших языковых моделей (LLM). Несмотря на то, что исследования низкобитного квантования активно развиваются применительно к англоязычным LLM, его влияние на морфологически богатые и разнородные по ресурсам языки, включая русский, остается изученным значительно хуже. Поэтому требуются дополнительные исследования этого вопроса в связи с развитием высокоэффективных русскоязычных и многоязычных LLM.

Мы провели систематическое исследование квантования предобученных моделей в эффективные 2.0—4.25 бита на параметр для современных русскоязычных LLM различного масштаба от 4 до 32 млрд параметров (4 B и 32 B). Экспериментальная часть охватывает как стандартное равномерное квантование, так и специализированные низкобитные форматы. Полученные результаты выявили несколько ключевых тенденций: i) устойчивость русскоязычных LLM к квантованию варьируется в зависимости от архитектуры и размера модели; ii) 4-битное квантование демонстрирует высокую надежность, особенно при использовании продвинутых форматов; iii) 3-битное и 2-битное квантования оказались наиболее чувствительными к указанным калибровки. Полученные эмпирические данные демонстрируют необходимость учета домена модели при использовании различных методов квантования.

Ключевые слова: квантование нейросетей, сжатие и оптимизация больших языковых моделей.

Предсказание качества автоматического распознавания речи на основе больших языковых моделей

Антон Полевой

1189-1211

Аннотация:

Предложен подход к прогнозированию показателя качества распознавания речи Word Error Rate (WER) на основе акустических характеристик сигнала и вычисления перплексии языковых моделей. Предлагаемый метод включает в себя создание разнообразных наборов аудиоданных путем применения различных типов акустических искажений к чистым речевым образцам на различных уровнях качества и разборчивости. В отличие от предыдущих работ, извлекается и анализируется полный набор речевых признаков: прогнозирование значения отношения сигнал/шум (signal-to-noise ratio, SNR), нейросетевые метрики качества звука (NISQA и др.), метрики уверенности модели распознавания речи, а также перплексия текста гипотезы ASR по языковой модели в качестве дополнительного признака для обучения единой модели прогнозирования WER.

Проведены эксперименты с использованием современных архитектур распознавания речи для демонстрации эффективности предлагаемого метода в прогнозировании WER в различных акустических условиях. Показано, что включение перплексии существенно повышает качество прогноза WER, в частности для данных, где акустические признаки слабо коррелируют с ошибками распознавания. Результаты применимы для автоматической оценки ожидаемого качества распознавания речи и фильтрации аудиовходов.

Ключевые слова: прогнозирование WER, акустическая деградация при распознавании речи, перплексия, уверенность систем автоматического распознавания речи.

Интеллектуальный сервис мультимодального нейросетевого мониторинга области наблюдения

Разиль Рустемович Миннеахметов

123-144

Аннотация:

Представлен подход к разработке интеллектуального сервиса мультимодального мониторинга области наблюдения с использованием больших нейросетевых моделей. Предлагаемое решение способно анализировать разнородные данные: видеопотоки, сигналы датчиков окружающей среды (температура, влажность и пр.) и журналы событий – для получения целостной картины происходящего. В качестве основных инструментов задействованы крупные языковые и визуальные модели (например, LLaMA, MiniCPM‑V и др.), развернутые локально с помощью платформы Ollama, что обеспечивает автономную и безопасную обработку информации без необходимости передачи данных на удаленные сервера. Разработан прототип системы, работающий в офлайн-режиме и способный выявлять критические ситуации, аномальные отклонения от нормы и контекстно значимые события в наблюдаемой зоне. Описана методика формирования тестовых сценариев и проведения качественной оценки работы модели по метрикам F1-мера, Precision, Recall. Результаты экспериментов подтвердили применимость мультимодальных моделей для решения задач мониторинга: прототип успешно распознает сложные паттерны поведения и демонстрирует потенциал больших моделей в построении адаптивных и масштабируемых систем наблюдения.

Ключевые слова: интеллектуальный сервис, мультимодальный мониторинг, Ollama, большие языковые модели, отслеживание активностей, видеоаналитика, искусственный интеллект.

Автоматизированное оценивание коротких ответов обучающихся с использованием языковых моделей

Чулпан Бакиевна Миннегалиева, Ильнур Илхамович Кашапов, Ольга Дмитриевна Морозова

278-293

Аннотация:

Методы проверки ответов обучающихся с использованием языковых моделей в настоящее время исследуются разными специалистами. Результаты автоматизированного оценивания зависят от предметной области и особенностей учебной дисциплины. В работе проанализированы ответы студентов, полученные в ходе изучения курса «Компьютерная графика и дизайн». При помощи языковых моделей определены векторы документов. Предложен метод оценивания ответов через нахождение косинусного сходства полученных векторов и уточнение оценок проверкой ключевых слов. Результаты могут использоваться при предварительной проверке ответов студентов и являются базой для дальнейших исследований.

Ключевые слова: языковая модель, контроль знаний, обработка текста, ключевое слово ответа, автоматизированная оценка ответов обучающихся, косинусное сходство, векторное представление документа, BERT, word2vec, открытый вопрос.

Инструмент для оперативной диагностики памяти нейросетевых архитектур языковых моделей

Павел Андреевич Гавриков, Азамат Комилжон угли Усманов, Дмитрий Реваев, Сергей Николаевич Бузыканов

1346-1367

Аннотация:

Большие языковые модели (Large Language Models, LLM) прошли путь от простых N-граммных систем до современных универсальных архитектур, однако ключевым ограничением остается квадратичная сложность механизма самовнимания по длине входной последовательности. Это существенно увеличивает потребление памяти и вычислительных ресурсов, а с появлением задач, требующих рекордно длинных контекстов, создает необходимость разработки новых архитектурных решений. Поскольку для исследования предлагаемой архитектуры требуется длительное и дорогостоящее обучение полновесной сети, необходимо разработать инструмент, который позволял бы быстро дать предварительную оценку архитектуре с точки зрения внутренней памяти.

В настоящей работе предложен метод количественной оценки внутренней памяти нейросетевых архитектур на основе синтетических тестов, не требующих больших корпусов данных. Под внутренней памятью понимается объем информации, который модель способна воспроизвести без обращения к исходным входам.

Для верификации подхода разработан программный комплекс, апробированный на архитектурах GPT-2 и Mamba. Использованы задачи копирования, инверсии и извлечения значения по ключу. Проведенное сравнение по точности предсказаний, распределению ошибок и вычислительным затратам позволяет оперативно оценивать эффективность и перспективность архитектур LLM.

Ключевые слова: большие языковые модели, архитектура нейросетей, внутренняя память, долговременное хранение информации, обработка последовательностей, измерение функциональной памяти, сравнение архитектур.

Применение квантованных алгоритмов для адаптации языковых моделей в задаче верификации хода решения квадратных уравнений

Алмаз Наилевич Хайбуллин, Дмитрий Николаевич Тумаков

1418-1444

Аннотация:

Работа посвящена исследованию квантованных подходов к адаптации языковых моделей для задачи автоматической пошаговой проверки корректности хода решения квадратных уравнений. Рассмотрена результативность подходов параметрически эффективного дообучения (PEFT) при адаптации языковых моделей DeepSeek-R1-Distill-Qwen-1.5B и InternLM2-Math-Plus-1.8B для создания математического верификатора (Process-supervised Reward Models, PRM). Эксперименты проведены на синтетическом наборе данных квадратных уравнений, дополненном негативным сэмплированием для имитации ошибок обучающихся. Выполнено сравнительное тестирование стандартных (LoRA, DoRA, rsLoRA) и квантованных (QLoRA, QDoRA, LoftQ) алгоритмов тонкой настройки.
Дополнительно изучена обобщающая способность нейросетей (Zero-shot Transfer) на структурно отличающемся наборе линейных уравнений. Результаты показали, что квантование решает проблемы численной стабильности вычислений для нестандартных архитектур (InternLM2), обеспечивая при этом качество, сопоставимое со стандартными методами. Для модели DeepSeek-R1 метод QLoRA достиг точности (Accuracy) 97.77%, а методы QDoRA и LoftQ – по 98%, что лишь незначительно уступает классическому алгоритму LoRA (98.67%). Аналогично для нестандартной архитектуры InternLM2 применение QLoRA позволило достичь точности 92.67% (против 93% у базового LoRA). Однако алгоритмы без понижения разрядности весов (LoRA) склонны сохранять более богатое представление выученных паттернов, обеспечивая хорошую способность к переносу знаний для моделей класса Reasoning (Accuracy DeepSeek-R1 66.8% против 61.4% у QLoRA на новых данных).

Ключевые слова: языковые модели, параметрически эффективное дообучение, квантованные методы обучения, математическое рассуждение, автоматизированная проверка решений, модели вознаграждения с контролем за процессом.

Пост-коррекция слабой расшифровки большими языковыми моделями в итерационном процессе распознавания рукописей

Валерий Павлович Зыков, Леонид Моисеевич Местецкий

1385-1414

Аннотация:

Рассмотрена задача ускорения построения точной редакторской разметки рукописных архивных текстов в рамках инкрементного цикла обучения на основе слабой расшифровки. В отличие от ранее опубликованных результатов, основное внимание уделено интеграции автоматической посткоррекции слабой расшифровки с помощью больших языковых моделей (Large Language Models, LLM). Предложен и реализован протокол применения LLM на уровне строк в режиме обучения на нескольких примерах с тщательно сконструированными промптами и контролем формата вывода (сохранение дореформенной орфографии, защита имен и числительных, запрет на изменение структуры строк). Эксперименты проведены на корпусе дневников А. В. Сухово-Кобылина. В качестве базовой модели распознавания использована строчная версия модели Vertical Attention Network. Результаты показали, что LLM-коррекция на примере сервиса ChatGPT-4o заметно улучшает читабельность слабой разметки и существенно снижает процент ошибок в словах (в нашем опыте – порядка −12 процентных пунктов), при этом не внося ухудшения в проценте ошибок в буквах. Другой исследуемый сервис – DeepSeek-R1 – показал менее стабильное поведение. Рассмотрены практические настройки промптов, ограничения (контекстные лимиты, риск «галлюцинаций») и даны рекомендации по безопасной интеграции LLM-коррекции в итерационный пайплайн разметки с целью сокращения трудозатрат эксперта-асессора и ускорения оцифровки исторических архивов.

Ключевые слова: распознавание рукописного текста, слабая разметка, Vertical Attention Network (VAN), большие языковые модели (LLM), посткоррекция, итерационное дообучение.

Исследование таксономии с помощью рассуждающих больших языковых моделей и вызова функций

Фёдор Алексеевич Садковский, Михаил Михайлович Тихомиров, Наталья Валентиновна Лукашевич

1212-1234

Аннотация:

Рассмотрена задача пополнения таксономий – иерархических структур для организации понятий. Предложена архитектура на основе подхода ReAct (Reasoning + Acting), позволяющая пополнять таксономию в режиме zero-shot без дообучения больших языковых моделей. Система реализована в двух сценариях: автономная навигация от корневых узлов и верификация гипотез, сгенерированных другими моделями. Эксперименты на материале диахронического датасета RuWordNet показали, что прямое исследование таксономии от корня сталкивается с ограничениями, связанными со сложностью графа (MAP@3 = 24.6%). В то же время использование системы в качестве верификатора позволило улучшить качество предсказаний базовых моделей: прирост MAP@3 составил 9.5 п.п. для FastText и 1.1 п.п. для TaxoYandexGPT-5-Lite. Ключевыми преимуществами подхода являются универсальность, отсутствие необходимости дообучения и интерпретируемость за счет явных цепочек рассуждений.

Ключевые слова: таксономия, пополнение таксономий, извлечение гиперонимов, LLM, цепочка рассуждений, вызов функций, RuWordNet, переранжирование, компьютерная семантика.

Проблема построения синтетических психологических данных: опыт моделирования реакций на фрустрацию

Анфиса Анваровна Чуганская, Данил Алексеевич Киреев, Иван Валентинович Смирнов, Олег Георгиевич Григорьев

1235-1252

Аннотация:

Вопрос генерации синтетических данных для психологических исследований остается актуальным и сложным. Проблемы конфиденциальности, надежности, достоверности, валидности выводов остаются неравномерно представленными для различных областей психологии и фактически оказываются взаимосвязанными с решением вопроса использования синтетических данных в смежных науках – медицине, социологии, истории, политологии, экономике. Изучение различных психологических феноменов в рамках исследований больших социальных групп сопряжено с проблемами анализа сложно формализуемых конструктов. Под синтетическими общем виде понимают данные, искусственно сгенерированные на основе алгоритмов и моделирования.

В качестве основы настоящего исследования была выбрана классификация типов реакции на фрустрацию С. Розенцвейга. При анализе сетевого дискурса существует проблема малочисленности некоторых типов. Особенно это касается класса импунитивных реакций. В работе проанализирована возможность создания корпуса синтетических данных (на примере корпуса текстов реакций на фрустрацию), сгенерированными с помощью больших языковых моделей. При проведении экспериментов экспертами были созданы промпты и выполнена генерация примеров импунитивных реакций с помощью четырех больших языковых моделей, по 10 примеров каждого типа реакций. Была также дана проведена оценка контекстной достоверности и качества генерации. Полученные результаты позволяют определить слабые стороны генерации текстов со сложными психологическими феноменами для обучения нейросетевых моделей.

Ключевые слова: фрустрация, большая языковая модель (LLM), синтетические данные, искусственный интеллект, промпт, сетевая дискуссия, классификация Розенцвейга.

Формирование структурированных представлений научных журналов для интеграции в граф знаний и семантического поиска

Ольга Муратовна Атаева, Михаил Геннадьевич Кобук

1306-1323

Аннотация:

Работа посвящена проблеме развития библиотеки научных предметных областей SciLibRu, как продолжения семантического описания научных трудов проекта LibMeta. В основе этой библиотеки лежит концептуальная модель данных, структура и семантика которой сформированы на принципах онтологического моделирования. Такой подход обеспечивает строгое описание предметной области, формализацию взаимосвязей между сущностями и возможность дальнейшего автоматизированного анализа данных. Целью настоящего исследования были разработка и экспериментальное применение методов структуризации содержимого научных журналов в формате LaTeX для их интеграции в онтологию библиотеки и обеспечения семантического поиска.

Предложен алгоритм трансляции в формат XML данных, представленных множеством файлов, для интеграции в онтологию библиотеки. Реализован модуль векторного поиска, основанный на вычислении эмбеддингов с использованием языковых моделей. Выявлены закономерности распределения эмбеддингов и факторы, влияющие на точность ранжирования результатов поиска. Проведено тестирование двух названых компонентов.

Разработанный метод составляет основу для автоматического включения содержимого научных журналов в граф знаний SciLibRu и создания обучающих корпусов для языковых моделей, ограниченных рамками научных предметных областей. Полученные результаты способствуют развитию систем навигации по графу знаний журналов, а также рекомендательных механизмов и инструментов интеллектуального поиска по русскоязычным научным текстам.

Ключевые слова: полуструктурированные данные, онтология текста, LaTeX, векторное представление текста, полнотекстовый поиск, семантический поиск.

Уверенность LLM при построении семантических классификаций аргументов

Даниил Сергеевич Ларионов, Елена Николаевна Никитина, Иван Валентинович Смирнов

1155-1173

Аннотация:

Исследована проблема квантификации уверенности больших языковых моделей (Large Language Model, LLM) при автоматической семантической классификации аргументов при эмотивных предикатах. На материале русскоязычных сообщений социальных сетей проанализированы глаголы страха (пугать, бояться и др.) и эмоционального отношения (нравиться, любить) с семантическими ролями экспериенцера, каузатора и объекта. В работе дано сравнение самооценки уверенности LLM Claude Sonnet 4.5 с экспертной оценкой текстов рассуждений модели при классификации аргументов по тематической области «Здравоохранение». В эксперименте использована стратифицированная выборка из 300 примеров с применением цепочки рассуждений на русском языке и четырехступенчатой шкалы уверенности. Результаты показали умеренную корреляцию Спирмена между оценками эксперта и модели. Статистически значимая связь установлена только между самооценкой модели и фактической корректностью классификации, тогда как экспертная оценка лингвистических характеристик рассуждений не зависит от точности. Сделан вывод о том, что эксплицитные рассуждения LLM не связаны напрямую с самооценкой по степени уверенности и не влияют на процесс принятия решений; они могут являться важной функциональной частью пользовательского интерфейса, но не исследовательского.

Ключевые слова: семантическая роль, классификация аргументов, эмотивный предикат, большие языковые модели, рассуждение LLM, уверенность LLM.

HaRuCo: новый русскоязычный корпус научно-популярных текстов с разметкой кореференции

Роман Денисович Шувалов, Елена Анатольевна Сидорова

1293-1303

Аннотация:

Представлен новый русскоязычный корпус с разметкой кореференции HaRuCo (Habr Russian Coreference Corpus). В качестве основы для корпуса взяты научно-популярные статьи, относящиеся к предметной области «Компьютерная лингвистика». Предложена методика разметки кореференции для текстов узких предметных областей, которая включает четыре основных этапа: синтаксический анализ текста; сборку именных групп и выделение местоимений для построения упоминаний (спанов); классификацию упоминаний классами предметной области; кластеризацию упоминаний в соответствии с цепочками кореферентно-связанных спанов. Аннотирование кореферентных связей осуществлено с применением синтаксического парсера и большой языковой модели, оно прошло ручную проверку и корректировку. Созданный корпус включает 3727 сущностей, 9905 упоминаний и 2683 кореферентных цепочек. Он может быть использован для обучения и оценки моделей разрешения кореференции для русского языка.

Ключевые слова: разрешение кореференции, разметка кореференции, корпус текстов, научно-популярный текст, методика разметки, разметка упоминаний, кластеризация упоминаний, кореферентная связь.

Фреймворк для анализа безопасности кода, генерируемого большими языковыми моделями в мультиагентном режиме

Давид Арменович Авагян, Каринэ Арсеновна Айрапетьянц

1082-1117

Аннотация:

Большие языковые модели находят все более широкое применение в области генерации программного кода. Однако тщательного изучения на предмет безопасности требуют как генерируемые программы, так и сами системы на основе языковых моделей. Одной из популярных техник повышения качества генерации является построение мультиагентной системы, состоящей из нескольких моделей. В статье исследовано качество работы языковых моделей GPT-OSS 20B, GPT-OSS 120B и Qwen3-Coder 480B в одиночном и мультиагентном режимах с использованием двух наборов задач для анализа безопасности кода: SecurityEval и CyberSecEval. Практическим результатом работы является расширяемый и масштабируемый фреймворк SafeAICoder для тестирования больших языковых моделей, поддерживающий распределенный режим работы для генерации многомодульных программ и тестов на сервере, без участия клиентского кода.

Ключевые слова: большие языковые модели, мультиагентные системы, программная инженерия, генерация кода, качество кода, безопасность кода, метрики.

Определение эффективных механических характеристик нелинейного композиционного материала со сферическими наполнителями

Наиль Рашатович Батталов, Ислам Рамилевич Гарифуллин, Ленар Усманович Султанов, Ленар Рустамович Фахрутдинов

1304-1317

Аннотация:

Большие языковые модели находят все более широкое применение в области генерации программного кода. Однако тщательного изучения на предмет безопасности требуют как генерируемые программы, так и сами системы на основе языковых моделей. Одной из популярных техник повышения качества генерации является построение мультиагентной системы, состоящей из нескольких моделей. В статье исследовано качество работы языковых моделей GPT-OSS 20B, GPT-OSS 120B и Qwen3-Coder 480B в одиночном и мультиагентном режимах с использованием двух наборов задач для анализа безопасности кода: SecurityEval и CyberSecEval. Практическим результатом работы является расширяемый и масштабируемый фреймворк SafeAICoder для тестирования больших языковых моделей, поддерживающий распределенный режим работы для генерации многомодульных программ и тестов на сервере, без участия клиентского кода.

Ключевые слова: нелинейно-упругий материал, материал Муни – Ривлина, RVE, метод наименьших квадратов, армированный композит.

Нечетко-логическая адаптация параметров скользящего окна при подготовке данных для больших языковых моделей

Максим Владимирович Бобырь, Наталья Анатольевна Милостная, Светлана Юрьевна Бельская

1318-1337

Аннотация:

Предложен нечеткий регулятор вычисления параметров скользящего окна для подготовки обучающих данных больших языковых моделей. Традиционный подход задает параметры «шаг окна» и «длина контекста» фиксированными константами, одинаковыми для всего текста, и не учитывает такие лингвистические характеристики отдельных фрагментов, как насыщенный научный текст и монотонный повторяющийся текст. Предлагаемый метод использует два автоматически вычисляемых признака фрагмента – лексическое разнообразие и среднюю длину BPE-токена. На основе алгоритма Мамдани с базой из 9 нечетко-логических правил и дефаззификацией методом центра тяжести нечеткий регулятор адаптивно вычисляет значения параметров «шаг окна» и «длина контекста» для каждого фрагмента. Предложенный подход имеет когнитивную интерпретацию, поскольку воспроизводит механизм адаптивного внимания человека при чтении, например, сложные фрагменты обрабатываются более внимательно при малом размере шага.

Ключевые слова: нечеткий вывод, алгоритм Мамдани, скользящее окно, LLM, Type-Token Ratio, BPE-токенизация, когнитивное моделирование, адаптивная обработка текста.

Результаты поиска