• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Повышение устойчивости классификации коротких текстов к стохастическому шуму на основе плотностной очистки обучающих выборок

Басар Бауржанович Баишев, Андрей Петрович Халов
681-698
Аннотация:

Рассмотрена задача классификации коротких текстовых заявок в условиях значительного дисбаланса классов и зашумленности реальных потоков обращений. Показана ограниченная эффективность методов синтетического расширения выборки при работе с зашумленной разметкой. Предложен гибридный метод, сочетающий предварительную плотностную очистку данных и многоуровневое ансамблирование моделей. Применение алгоритма плотностной кластеризации позволило исключить 16.5% информационного шума от общего объема выборки. Финальная модель представлена двухуровневой архитектурой и оптимизирована с помощью байесовского поиска гиперпараметров. На отложенной тестовой выборке достигнуто значение метрики R@3, равное 97.4%. Предложенный метод позволяет автоматизировать процесс распределения заявок, существенно снижая нагрузку на операторов и сокращая время диспетчеризации обращений.

Ключевые слова: обработка естественного языка, зашумленные текстовые данные, ансамблевое обучение, робастная классификация, фильтрация шума.

Автоматические и полуавтоматические методы построения графа знаний предметной области и расширения онтологии

Андрей Петрович Халов, Ольга Муратовна Атаева
1481-1519
Аннотация:

Рассмотрен цикл построения графа знаний и расширения онтологии для специальной предметной области, описывающей процесс управления потоками данных в службах информационной поддержки. Предложена методика формирования корпуса данных для наполнения онтологии с автоматической псевдоразметкой, включающей специальные категории для фиксации ранее не представленных классов и отношений. Обучена специализированная модель извлечения именованных сущностей на корпусе данных объемом 3 млн токенов с 92 метками. Результаты были использованы для интеграции извлеченных фактов, что увеличило граф знаний до 0.98 млн триплетов, при этом коэффициент расширения графа (отношение общего числа фактов к явным триплетам) увеличился с 2.65 до 3.52 при сохранении логической согласованности. Наборы токенов с одинаковыми метками были преобразованы в устойчивые семантические множества, что позволило полуавтоматически расширить онтологию. В онтологию добавлены 12 новых классов, которые были извлечены из неструктурированных текстовых данных. Показан прикладной пример запросов и дальнейшей аналитики.

Ключевые слова: онтология, DOLCE, граф знаний, NER, BIO-разметка, RDF/OWL, SPARQL.
1 - 2 из 2 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2026 Казанский (Приволжский) федеральный университет; Институт развития информационного общества