• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Нейросимволический подход к дополненной генерации текста на основе автоматизированной индукции морфотактических правил

Марат Вильданович Исангулов, Александр Михайлович Елизаров, Айгиз Ражапович Кунафин, Айрат Рафизович Гатиатуллин, Николай Аркадиевич Прокопьев
1085-1102
Аннотация:

Представлен гибридный нейросимволический метод, который объединяет большую языковую модель (LLM) и конечный автомат (FST) для обеспечения морфологической корректности при генерации текста на агглютинативных языках.
Система автоматически извлекает правила из корпусных данных: для локальных примеров словоформ LLM формирует цепочки морфологического разбора, которые затем агрегируются и упорядочиваются в компактные описания правил морфотактики (LEXC) и выбора алломорфов (regex). На этапе генерации LLM и FST работают совместно: если токен не распознается автоматом, LLM извлекает из контекста пару «лемма + теги», а FST реализует корректную поверхностную форму. В качестве набора данных использован корпус художественной литературы (~1600 предложений). Для списка из 50 существительных извлечено 250 словоформ. По предложенному алгоритму LLM сгенерировала 110 контекстных regex-правил вместе с LEXC-морфотактикой, на основе чего был скомпилирован FST, распознавший 170/250 форм (~70%). В прикладном тесте машинного перевода на подкорпусе из 300 предложений интеграция данного FST в цикл LLM повысила качество с BLEU 16.14 / ChrF 45.13 до BLEU 25.71 / ChrF 50.87 без дообучения переводчика. Подход применим к иным частям речи и другим агглютинативным и малоресурсным языкам, где он может быть использован для наполнения словарных и грамматических ресурсов.

Ключевые слова: нейросимволический подход, большая языковая модель, конечные автоматы, двухуровневая морфология, LEXC морфотактика, машинный перевод, агглютинативные языки, башкирский язык.

Модель лингвистического графа знаний «Turklang» как база для создания инструментов обучения тюркским языкам

Айрат Рафизович Гатиатуллин, Николай Аркадиевич Прокопьев
251-265
Аннотация:

Описаны элементы модели лингвистического графа знаний «Turklang», разработанного в Институте прикладной семиотики АН РТ и используемого в качестве базы для создания ряда лингвистических ресурсов и инструментов: портал «Тюркская морфема», электронный корпус татарского языка «Туган Тел», лингвистические процессоры.


Для создания образовательной среды необходимы предметно-ориентированные графы знаний, для получения которых не применимы методы создания общих и открытых графов. В работе описаны лингвистические графы знаний, которые отображают, с одной стороны, потенциальные возможности тюркских языков, с другой стороны, примеры реального использования в текстах. Особенность этих графов знаний заключается в том, что они содержат лингвистические единицы разных языковых уровней, а также семантические универсалии, соответствующие значениям этих лингвистических единиц, которые встроены в единую модель лингвистического графа знаний. Структура такого графа знаний позволяет формировать учебные курсы, строить индивидуальную образовательную траекторию, а также создавать задания и средства автоматизированной проверки в рамках контроля знаний при обучении тюркским языкам. Это дает возможность разрабатывать впоследствии, на основе этих графов, программы обучения с учетом структурно-функциональных особенностей тюркских языков, а также способствует реализации индивидуальных целей обучающихся.

Ключевые слова: граф знаний, база знаний, лингвистический ресурс, лингвистическая единица, малоресурсные языки, тюркские языки, веб-портал, электронное образование, контроль знаний, автоматизированная оценка ответа.
1 - 2 из 2 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2025 Казанский (Приволжский) федеральный университет; Институт развития информационного общества