Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Применение машинного обучения к задаче генерации поисковых запросов

Александр Михайлович Гусенков, Алина Рафисовна Ситтикова

272-293

Аннотация:

Исследованы две модификации рекуррентных нейронных сетей: сети с долгой краткосрочной памятью и сети с управляемым рекуррентным блоком с добавлением механизма внимания к обеим сетям, а также модель Transformer в задаче генерации запросов к поисковым системам. В качестве модели Transformer использована модель GPT-2 от OpenAI, которая обучалась на запросах пользователей. Проведен латентно-семантический анализ для определения семантических сходств между корпусом пользовательских запросов и запросов, генерируемых нейронными сетями. Для проведения анализа корпус был переведен в формат bag of words, к нему применена модель TFIDF, проведено сингулярное разложение. Семантическое сходство вычислялось на основе косинусной меры. Также для более полной оценки применимости моделей к задаче был проведен экспертный анализ для оценки связности слов в искусственно созданных запросах.

Ключевые слова: обработка естественного языка, генерация естественного языка, машинное обучение, нейронные сети.

Семантический анализ документов в системе управления цифровыми научными коллекциями

Шамиль Махмутович Хайдаров

61-85

Аннотация: Предложены методы семантического анализа документов в системе управления цифровыми научными коллекциями, в том числе электронными научными журналами. Рассмотрены методы обработки документов, содержащих математические формулы, а также способы конвертации этих документов из формата OpenXML в формат TeX. Разработан алгоритм поиска по формулам в коллекциях математических документов, хранящихся в формате OpenXML. Алгоритм реализован в виде онлайн-сервиса на платформе science.tatarstan.

Ключевые слова: семантический анализ, издательские системы.

Семантический анализ корпуса научных статей на основе графового представления

Вадим Андреевич Чунихин, Сергей Александрович Зайцев, Ольга Муратовна Атаева

1253-1268

Аннотация:

Проблема эффективной навигации и поиска релевантной информации в постоянно растущем объеме научных публикаций требует перехода от классических методов полнотекстового поиска к семантическим моделям. В работе предложен подход к структурированию гетерогенного корпуса научных текстов путем построения графа знаний. Разработан конвейер обработки данных, включающий извлечение метаданных, ключевых слов и структурных элементов статей, а затем их интеграцию в единый граф. На основе построенного графа знаний реализованы методы анализа явных и извлечения неявных связей между публикациями. Результаты исследования демонстрируют эффективность графового представления научной информации для выявления скрытых закономерностей в предметных областях и поддержки интеллектуальной навигации.

Ключевые слова: семантический анализ, корпус научных статей, граф знаний, онтология, RDF, SPARQL, большие языковые модели, извлечение информации, графовые базы данных.

Базы знаний для описания информационных ресурсов в молекулярной спектроскопии. 3. Формирование базовой и прикладной онтологии

А.И. Привезенцев, Д.В. Царьков, А.З. Фазлиев

Аннотация: Статья посвящена описанию свойств решений задач в предметной области «Количественная спектроскопия» и детализирует результаты работы [1]. Для представления свойств решений задач используется язык OWL DL. В качестве примера рассмотрена прикладная онтология источников информации о свойствах решений прямой и обратной задачи нахождения вакуумных волновых чисел в молекулярной спектроскопии диоксида углерода и его изотопологов. Показано, что создание источника информации, характеризующих свойства решения задачи, позволяет классифицировать решения задач количественной спектроскопии и организовывать семантический поиск достоверных данных в публикациях. Дано краткое описание особенностей табличного метода используемого в машине вывода FACT++.

Ключевые слова: количественная спектроскопия, язык OWL DL, вакуумные волновые числа, молекулярная спектроскопия диоксида углерода, семантический поиск.

Семантический рекомендательный сервис присвоения кода УДК математическим статьям

Ольга Авенировна Невзорова, Дамир Альбертович Альмухаметов

203-224

Аннотация:

Классификация документов с присвоением кодов-классификаторов является традиционным способом систематизации и поиска документов по определенной тематике. Универсальная десятичная классификация (УДК) лежит в основе систематизации знаний, представленных в библиотеках, базах данных и других хранилищах информации. В России УДК является обязательным реквизитом всей книжной продукции и информации по естественным и техническим наукам. Выбор классификационных кодов связан с анализом структуры дерева классификатора и традиционно выполняется автором научной статьи.

В настоящей работе предложено решение задачи автоматизации подбора классификационного кода УДК для математической статьи на основе специального ресурса – онтологии OntoMath^PRO профессиональной математики, разработанной в Казанском федеральном университете. Подходом к решению задачи автоматизации является создание «кодовых карт» для каждого классифицирующего кода в дереве УДК в области математики. Под «кодовой картой» понимается взвешенный набор всех математических именованных сущностей, извлеченных с помощью онтологии OntoMath^PRO из коллекции статей с заданным кодом УДК. Создание «кодовых карт» основано на гипотезе о том, что выбор кода УДК обуславливается определённым набором классифицирующих признаков, которые можно представить классами из онтологии OntoMath^PRO. Предложенная гипотеза проверена и подтверждена: проверка гипотезы проведена на коллекции математических статей, опубликованных в журнале «Известия ВУЗов. Математика» в течение 1999–2009 гг.

Ключевые слова: Универсальная десятичная классификация, кодовая карт, кодовая карта, онтология OntoMathPRO, математическая статья.

1 - 5 из 5 результатов