• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Онтология по естественным наукам и технологиям ОЕНТ: структура, состав и современное состояние

Б.В. Добров, Н.В. Лукашевич
Аннотация: На основе разумного сочетания трех подходов - традиционных информационно-поисковых тезаурусов, формальных онтологий, ресурсов типа WordNet, разработана лингвистическая онтология по естественным наукам и технологиям ОЕНТ, предназначенной для работы при автоматической обработке текста в разных приложениях обработки информации. ОЕНТ включает в настоящее время более 50 тысяч понятий, более 150 тысяч текстовых входов, 200 тысяч прямых и более двух миллионов наследуемых отношений между понятиями. В статье мы описали структурные особенности ОЕНТ. Широта предметной области и назначение онтологии определяют ряд решений, принятых при разработке структурной организации онтологии.
Ключевые слова: онтология, лингвистическая онтология, Онтология по естественным наукам и технологиям ОЕНТ, структурные особенности ОЕНТ.

Анализ эффективности субсловных токенизаторов в малоресурсной лингвистической среде: опыт реализации на таджикском языке

Муллошараф Курбонович Арабов, Светлана Сергеевна Хайбуллина
546-564
Аннотация:

Рассмотрены современные подходы к субсловной токенизации текстов применительно к малоресурсному таджикскому языку, характеризуемому сложной морфологической структурой и высокой вариативностью словоформ. В ходе исследования был сформирован и предварительно обработан масштабный разнородный корпус, включающий 99 книг и 134497 текстовых статей различных жанров и тематик, общий объем которого превышает 33 млн токенов. Корпус был очищен от шумов, нормализован и использован в качестве основы для обучения и последующего тестирования субсловных моделей.


На базе названного корпуса были обучены и проанализированы пять моделей токенизации, реализующих алгоритмы BPE, WordPiece и Unigram с использованием библиотек Hugging Face Tokenizers и SentencePiece. Сравнительная оценка проведена по ряду ключевых показателей, включая долю неизвестных слов (OOV), степень сжатия текстового представления, скорость токенизации, а также характеристики распределения n-грамм, позволяющие оценить способность моделей отражать морфологическую и структурную организацию языка. Результаты экспериментов позволили выявить сильные и слабые стороны различных подходов к субсловной сегментации и определить наиболее эффективные стратегии токенизации в условиях морфологической сложности
таджикского языка. Полученные выводы могут быть использованы при разработке языковых моделей и прикладных NLP-инструментов для таджикского и других малоресурсных языков, способствуя расширению их присутствия в цифровой среде.

Ключевые слова: таджикский язык, субсловная токенизация, малоресурсные языки, BPE, Word-Piece, Unigram, Hugging Face Tokenizers, SentencePiece, корпусная лингвистика, обработка естественного языка (NLP).

Рекомендательная система текстовой аналитики юридических документов

Денис Сергеевич Зуев, Марат Фаритович Насрутдинов, Айрат Фаридович Хасьянов
435-449
Аннотация:

Обсуждено использование механизмов машинного обучения, анализа естественного языка и интеллектуального поиска в области юриспруденции. Основные ожидаемые результаты – методология применения алгоритмов текстовой аналитики и семантического анализа естественного языка (NLP) в задачах управления знаниями в судебном делопроизводстве, а также других видах юридической практики. Полученные результаты могут быть применены в области образования и управления знаниями в более широком контексте, поскольку исследование лежит на стыке юриспруденции, математической и компьютерной лингвистики.

Описан прототип многоагентной системы интеллектуального анализа текстов в юриспруденции, способной на имеющейся базе данных судебных документов выявлять общие зависимости, предоставлять для ознакомления юридические дела, близкие по тематике, рекомендовать наиболее вероятные исходы судебного рассмотрения или помечать важные места, на которые следует обращать внимание при процессуальных действиях с использованием инструментов текстовой аналитики.
Ключевые слова: аналитика и управление данными, интенсивное использование данных, электронные библиотеки, кластеризация, классификация судебных актов, рекомендательная система, микросервисная архитектура.
1 - 3 из 3 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2026 Казанский (Приволжский) федеральный университет; Институт развития информационного общества