• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Методы автоматического присвоения кодов УДК математическим статьям: оценка классических и нейросетевых подходов

Булат Тимурович Гизатуллин, Ольга Авенировна Невзорова
699-718
Аннотация:

Универсальная десятичная классификация (УДК) – это иерархическая система индексирования, в рамках которой одной публикации могут соответствовать один или несколько кодов. Ручное присвоение кодов УДК трудоемко и нередко оказывается неоднородным. В работе рассмотрена задача автоматического присвоения кодов УДК русскоязычным математическим статьям. Цель исследования – сравнить различные сочетания текстовых представлений и моделей классификации на едином корпусе и определить наиболее эффективные конфигурации. Для этого был сформирован корпус из 4194 статей с ресурса Math-Net.Ru, включающий полные тексты, аннотации, метаданные и коды УДК; были выполнены извлечение текста из PDF-файлов, очистка артефактов верстки и нормализация кодов. В эксперименте сопоставлялись текстовые представления TF-IDF, Word2Vec, SciRus-tiny и SciRus-tiny3.5 в сочетании с моделями логистической регрессии, Complement Naive Bayes (CNB) и CatBoost. Наилучшие результаты в обеих постановках – однозначной (single-label) и многозначной (multi-label) – показала модель TF-IDF + LogReg; близкие результаты продемонстрировала конфигурация TF-IDF + CNB. Полученные результаты могут быть использованы при разработке систем автоматической рубрикации научных публикаций, рекомендательных сервисов для авторов и редакторов, а также средств контроля качества тематической разметки.

Ключевые слова: автоматическая классификация, универсальная десятичная классификация, УДК, обработка научных текстов, машинное обучение, иерархическая классификация, многозначная классификация, математические тексты, цифровые библиотеки, векторизация текста.

Семантический рекомендательный сервис присвоения кода УДК математическим статьям

Ольга Авенировна Невзорова, Дамир Альбертович Альмухаметов
203-224
Аннотация:

Классификация документов с присвоением кодов-классификаторов является традиционным способом систематизации и поиска документов по определенной тематике. Универсальная десятичная классификация (УДК) лежит в основе систематизации знаний, представленных в библиотеках, базах данных и других хранилищах информации. В России УДК является обязательным реквизитом всей книжной продукции и информации по естественным и техническим наукам. Выбор классификационных кодов связан с анализом структуры дерева классификатора и традиционно выполняется автором научной статьи.


В настоящей работе предложено решение задачи автоматизации подбора классификационного кода УДК для математической статьи на основе специального ресурса – онтологии OntoMathPRO профессиональной математики, разработанной в Казанском федеральном университете. Подходом к решению задачи автоматизации является создание «кодовых карт» для каждого классифицирующего кода в дереве УДК в области математики. Под «кодовой картой» понимается взвешенный набор всех математических именованных сущностей, извлеченных с помощью онтологии OntoMathPRO из коллекции статей с заданным кодом УДК. Создание «кодовых карт» основано на гипотезе о том, что выбор кода УДК обуславливается определённым набором классифицирующих признаков, которые можно представить классами из онтологии OntoMathPRO. Предложенная гипотеза проверена и подтверждена: проверка гипотезы проведена на коллекции математических статей, опубликованных в журнале «Известия ВУЗов. Математика» в течение 1999–2009 гг.

Ключевые слова: Универсальная десятичная классификация, кодовая карт, кодовая карта, онтология OntoMathPRO, математическая статья.
1 - 2 из 2 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2026 Казанский (Приволжский) федеральный университет; Институт развития информационного общества