Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Применение графовых нейронных сетей для автоматической проверки информационных моделей зданий

Ольга Владимировна Полёткина, Ольга Муратовна Атаева

1381-1398

Аннотация:

Автоматизация проверки информационной модели здания на соответствие нормам пожарной безопасности остается актуальной задачей для архитектурно‑строительной отрасли. Существующие системы такой автоматизированной проверки ориентированы на подходы, основанные на правилах, которые не учитывают топологический контекст здания и плохо адаптируются к новым проектам.

В работе предложены и экспериментально проверены методы прогнозирования параметров противопожарной защиты дверей в информационных моделях зданий с использованием графовых нейронных сетей, а также валидация подхода на реальных проектных данных семи жилых зданий крупного застройщика. Предложена методология прогнозирования класса огнестойкости дверей на основе реляционных графовых сверточных сетей, а также разработан пайплайн извлечения данных из специального формата с построением графа и формированием признаков с учетом геометрических, семантических и топологических характеристик. Проведены эксперименты по прогнозированию наличия и класса огнестойкости с кросс-проектной валидацией по принципу «одно здание вне выборки». Разработанный подход позволяет автоматизировать проверку параметров противопожарной защиты и сократить время анализа моделей зданий. Применение графовых нейронных сетей обеспечивает учет топологического контекста и высокую точность прогнозирования, а использование реальных данных подтверждает практическую применимость метода.

Ключевые слова: информационная модель зданий, графовые нейронные сети, реляционная графовая нейросеть, огнестойкость дверей, открытый стандарт обмена данными IFC, автоматизированная проверка, графовое машинное обучение, кросс-проектная валидация.

Семантическая библиотека как средство определения научной предметной области

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков

988-1005

Аннотация:

Рассмотрены информационная система, предназначенная для представления предметной области, связанной с наукой, и ее особенности. Выделены общие концепции для формального описания такой предметной области в базе знаний семантической библиотеки. Особенность этих областей заключается в том, что структура данных подвержена частым изменениям. Поэтому средство организации знаний, в качестве которого выступает семантическая библиотека, должно быть достаточно универсальным и не требовать глубоких технических познаний. В работе приведены описание функциональности системы и ее использования при настройке на предметную область. Для каждой области набор ресурсов может отличаться как по формату, так и по набору самих ресурсов. Набор понятий, формирующих описание контента библиотеки, должен быть настолько универсальным, чтобы мог адаптироваться под нужды конкретной области. Для представления данных использованы метаданные трех уровней.

Ключевые слова: семантическая библиотека, онтология, представление знаний.

Онтологический подход к описанию единого цифрового пространства научных знаний

3-19

Аннотация:

Несмотря на развитие технических средств, усложняются процессы, связанные с поиском полной и точной научной информации в огромном количестве источников данных. Для выхода на новый уровень в использовании технологий обработки информации в первую очередь необходим переход к семантически значимому представлению научных знаний, извлекаемых из информации в цифровой среде. В современных условиях, характеризуемых мультидисциплинарностью исследований, необходимого эффекта можно достичь, разработав универсальные подходы к хранению и представлению научных знаний. Эти подходы нашли свое отражение в концепции Единого цифрового пространства научных знаний. В работе представлен обзор основных понятий в этой области, используемых как для представления элементов пространства, так и для обеспечения доступа к ним не только для человека, но и для программных агентов. В качестве инструментария для конструирования пространства знаний рассмотрены семантические библиотеки.

Ключевые слова: пространство знаний, цифровое пространство знаний, онтологии, метаданные, научные знания, уровни метаданных, проектирование онтологий, семантические библиотеки.

Формирование структурированных представлений научных журналов для интеграции в граф знаний и семантического поиска

Ольга Муратовна Атаева, Михаил Геннадьевич Кобук

1306-1323

Аннотация:

Работа посвящена проблеме развития библиотеки научных предметных областей SciLibRu, как продолжения семантического описания научных трудов проекта LibMeta. В основе этой библиотеки лежит концептуальная модель данных, структура и семантика которой сформированы на принципах онтологического моделирования. Такой подход обеспечивает строгое описание предметной области, формализацию взаимосвязей между сущностями и возможность дальнейшего автоматизированного анализа данных. Целью настоящего исследования были разработка и экспериментальное применение методов структуризации содержимого научных журналов в формате LaTeX для их интеграции в онтологию библиотеки и обеспечения семантического поиска.

Предложен алгоритм трансляции в формат XML данных, представленных множеством файлов, для интеграции в онтологию библиотеки. Реализован модуль векторного поиска, основанный на вычислении эмбеддингов с использованием языковых моделей. Выявлены закономерности распределения эмбеддингов и факторы, влияющие на точность ранжирования результатов поиска. Проведено тестирование двух названых компонентов.

Разработанный метод составляет основу для автоматического включения содержимого научных журналов в граф знаний SciLibRu и создания обучающих корпусов для языковых моделей, ограниченных рамками научных предметных областей. Полученные результаты способствуют развитию систем навигации по графу знаний журналов, а также рекомендательных механизмов и инструментов интеллектуального поиска по русскоязычным научным текстам.

Ключевые слова: полуструктурированные данные, онтология текста, LaTeX, векторное представление текста, полнотекстовый поиск, семантический поиск.

О представлении результатов научного института в виде графа знаний в семантической библиотеке

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова

798-818

Аннотация:

Новый взгляд на пространство знаний научного института составляет естественный этап развития веб-технологий. Заложенная в предыдущих исследований структура данных, позволяет организовать поиск и навигацию по ним с помощью графа знаний, как версия семантической библиотеки LibMeta. Граф знаний дает более полное и качественное представление о пространстве знаний, зачастую снимает когнитивную нагрузку в восприятии сложных структур и связей данных.

Ключевые слова: цифровая библиотека LibMeta, прикладная онтология, граф знаний, источники данных, разработка онтологии, научные результаты в цифровой среде, научный институт.

Оркестрация методов анализа научных данных в процессах рецензирования

Ольга Муратовна Атаева, Наталия Павловна Тучкова

655-680

Аннотация:

Исследована проблема сочетания методов в задаче семантического анализа научных данных и публикаций при рецензировании. На разных этапах обработки данных в системе SciLibRu использованы различные методы, построена многоуровневая онтология, наполнен граф знаний, что приводит к формированию новой структуры данных, отличной от исходной. Каждый метод по отдельности приобретает свое назначение в такой системе, при этом в совокупности их сочетание приводит к возникновению новых свойств, которые стали предметом настоящих исследований. Приведен пример автоматического агента рецензирования с объяснимым результатом.

Ключевые слова: оркестрация методов, семантический анализ, онтология предметной области, граф знаний, большие языковые модели, системы, категории, динамические структуры.

Использование семантических связей онтологии для создания адаптивного интерфейса

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова

2-17

Аннотация:

Работа посвящена проблеме настройки пользовательских интерфейсов информационной системы, осуществляющей интеграцию данных. Настраиваемый интерфейс служит одним из средств организации представления данных предметной области. Изучен вопрос об использовании семантических связей онтологии для подбора данных, соответствующих задачам исследований. Рассмотрена модель адаптивного интерфейса, который позволяет наиболее точно отразить потребности исследователя в рамках определенной предметной области. Показано, как средствами, заложенными в модели семантической библиотеки, формируется адаптивный интерфейс.

Ключевые слова: онтология, адаптивный интерфейс, предметная область, модель данных.

Разработка интеллектуальной системы поиска для математического архива публикаций

Алексей Алексеевич Насибулин, Ольга Муратовна Атаева

860-876

Аннотация:

В работе проведено исследование, связанное с поиском схожих документов по математике. Разработан рекомендательный алгоритм нахождения похожих научных статей по данной тематике, использующий приоритетный поиск по математическим формулам с текстовым подкреплением.

Выполнен перевод текста из графического в текстовое представление через технологию OCR для последующего анализа и индексации. В процессе анализа реализовано разбиение текста на блоки с последующим извлечением из текста значимых формул, ключевых слов и фраз. В процессе индексации сформирована векторная база данных на основе векторных представлений формул, полученных через процесс эмбеддинга. Результаты индексации использованы при поиске статей, имеющих сходство с документом, подаваемым пользователем на вход алгоритма. Получен список похожих статей с сортировкой результатов по метрике близости векторных представлений формул.

Исходные данные представляют собой около 5000 научных статей, посвященных различным исследованиями по математической тематике и представленных в виде PDF-файлов.

Эксперимент проведен на основе данных конкретного контента библиотечной системы, но предложенная технология может быть распространена на другие библиотечные системы, в том числе содержащие статьи по другим тематикам, например, по физике и другим точным наукам.

Ключевые слова: поиск по формулам, семантика, извлечение знаний, математический поиск, семантический поиск.

Формирование расширенных поисковых запросов на основе тезауруса предметной области в онтологии знаний семантической библиотеки

271-291

Аннотация: Обсуждены возможности расширения поискового запроса при наличии тезауруса предметной области. Роль контекста, задаваемого связями терминов тезауруса, заключается как в уточнении запроса, так и в увеличении масштабов выборки по запросу. Особое значение процесс расширения запроса имеет для научных предметных областей, где поиск опирается на специальную терминологию. В этом случае необходимо использовать тезаурусы предметных областей, чтобы минимизировать появление информационного шума. Предлагаемый подход позволяет учитывать особенности применения аналогичной терминологии в различных предметных областях. Примеры использования тезауруса отдельных разделов уравнений математической физики и смежных областей демонстрируют эффективность выбранного подхода исследований. Благодаря связям с понятиями информационных ресурсов других областей знаний, расширение информационного запроса захватывает поисковые поля отдаленных предметных областей и различных типов данных, текстов, символьных, звуковых и видеоархивов. Исследования показали, что расширение запроса на основе семантики контекста улучшает качество поиска научных публикаций в цифровой информации и повышает эффективность научных междисциплинарных исследований.

Ключевые слова: сравнение научных текстов, семантический поиск, тезаурус для онтологии знаний, информационный запрос с помощью тезауруса, семантические библиотеки.

Об описании некоторых краевых задач в семантической библиотеке LibMeta

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова

2-21

Аннотация:

Использован подход онтологического проектирования для описания семантики некоторых краевых задач в цифровой библиотеке LibMeta.

Для описания задач в библиотеке LibMeta установлены связи терминов и понятий с классическими определениями математической энциклопедии и других первоисточников. Установление связей позволяет сформировать словарь и тезаурус прикладной предметной области краевых задач и поместить результаты в семантическую среду цифровой библиотеки. Примеры такого подхода продемонстрированы с использованием возможностей семантической библиотеки LibMeta, в которую в процессе развития интегрированы в оцифрованном виде версия математической энциклопедии, энциклопедии математической физики, классификаторы, прикладные математические тезаурусы и словари. Новые термины из публикаций после добавления в контент библиотеки отразились со связями в математической энциклопедии. Тезаурус для задач предметной области теории упругости был впервые создан путем интеграции предметных словарей, классификаторов, метаданных публикаций профильного журнала и энциклопедического контента библиотеки LibMeta. Цель таких исследований состоит в предоставлении пользователю дополнительных сервисов в поиске публикаций в прикладной научной области.

Ключевые слова: прикладная онтология, тезаурус предметной области, источники данных, разработка онтологии, цифровая семантическая библиотека LibMeta.

Онтологический подход к проектированию микросервисной архитектуры

Евгений Александрович Малых, Андрей Алексеевич Блощук, Ольга Муратовна Атаева

822-841

Аннотация:

Несмотря на широкое использование микросервисной архитектуры в разработке программных систем, в настоящее время не существует формализованного подхода, обеспечивающего согласованное и гарантированное взаимодействие микросервисов на уровне передаваемых данных, что приводит к возникновению интеграционных ошибок и усложняет сопровождение распределенных систем. В работе предложен подход к организации взаимодействия микросервисов на основе онтологического моделирования, обеспечивающего формализацию структур данных и автоматизированную валидацию сообщений. Предложен метод преобразования в онтологических моделей формальных описаний схем данных основанный на спецификации схем GraphQL. Он позволяет автоматизировать процесс валидации данных и снизить количество интеграционных ошибок. Разработана также онтологическая модель, обеспечивающая анализ зависимостей между микросервисами и механизм валидации контрактов сообщений.

Практическая значимость работы заключается в достижении согласованного описания микросервисов, операций и форматов сообщений в результате использования онтологического подхода. Представление онтологии в виде графа позволяет анализировать зависимости между микросервисами и упрощает сопровождение крупных распределенных систем.

Ключевые слова: онтология, GraphQL Schema, интеграция данных, микросервисная архитектура, потоки сообщений, валидация данных, межсервисное взаимодействие, онтологическая модель, согласованность данных, управление схемами, шина данных.

Семантический анализ корпуса научных статей на основе графового представления

Вадим Андреевич Чунихин, Сергей Александрович Зайцев, Ольга Муратовна Атаева

1253-1268

Аннотация:

Проблема эффективной навигации и поиска релевантной информации в постоянно растущем объеме научных публикаций требует перехода от классических методов полнотекстового поиска к семантическим моделям. В работе предложен подход к структурированию гетерогенного корпуса научных текстов путем построения графа знаний. Разработан конвейер обработки данных, включающий извлечение метаданных, ключевых слов и структурных элементов статей, а затем их интеграцию в единый граф. На основе построенного графа знаний реализованы методы анализа явных и извлечения неявных связей между публикациями. Результаты исследования демонстрируют эффективность графового представления научной информации для выявления скрытых закономерностей в предметных областях и поддержки интеллектуальной навигации.

Ключевые слова: семантический анализ, корпус научных статей, граф знаний, онтология, RDF, SPARQL, большие языковые модели, извлечение информации, графовые базы данных.

Автоматические и полуавтоматические методы построения графа знаний предметной области и расширения онтологии

Андрей Петрович Халов, Ольга Муратовна Атаева

1481-1519

Аннотация:

Рассмотрен цикл построения графа знаний и расширения онтологии для специальной предметной области, описывающей процесс управления потоками данных в службах информационной поддержки. Предложена методика формирования корпуса данных для наполнения онтологии с автоматической псевдоразметкой, включающей специальные категории для фиксации ранее не представленных классов и отношений. Обучена специализированная модель извлечения именованных сущностей на корпусе данных объемом 3 млн токенов с 92 метками. Результаты были использованы для интеграции извлеченных фактов, что увеличило граф знаний до 0.98 млн триплетов, при этом коэффициент расширения графа (отношение общего числа фактов к явным триплетам) увеличился с 2.65 до 3.52 при сохранении логической согласованности. Наборы токенов с одинаковыми метками были преобразованы в устойчивые семантические множества, что позволило полуавтоматически расширить онтологию. В онтологию добавлены 12 новых классов, которые были извлечены из неструктурированных текстовых данных. Показан прикладной пример запросов и дальнейшей аналитики.

Ключевые слова: онтология, DOLCE, граф знаний, NER, BIO-разметка, RDF/OWL, SPARQL.

О модели поиска синонимов

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова

1006-1022

Аннотация:

Рассмотрена задача нахождения наиболее релевантных документов в результате расширенного и уточненного запроса. Для ее решения предложены модель поиска и механизм предварительной обработки текста, а также совместное использование поисковой системы и модели, построенной на основе индекса с помощью алгоритмов word2vec для генерации расширенного запроса с синонимами и уточнения результатов поиска на основе подбора похожих документов в цифровой семантической библиотеке. В работе исследуется построение векторного представления документов применительно к массиву данных цифровой семантической библиотеки LibMeta. Решалась задача обогащения пользовательских запросов синонимами. При построении модели поиска совместно с алгоритмами word2vec использован подход «сначала индексация, затем обучение», что позволяет получить более точные результаты поиска. Обучение модели проводилось на базе контента библиотеки для предметной области «Математика». Приведены примеры расширенного запроса с использованием синонимов.

Ключевые слова: модель поиска, алгоритм word2vec, синонимы, информационный запрос, расширение запроса.

Идентификация авторов в рамках предметной области в семантической библиотеке

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова

198-217

Аннотация:

Рассмотрены особенности задачи идентификации авторов и определения авторского вклада в публикации в цифровых библиографических коллекциях. Особенности проблемы недостаточной идентификации проявляются в повторах информации, двойниковании, наличии авторов с полностью совпадающими именами, самоцитировании, автоплагиате и собственно плагиате. Предлагается использовать информацию о публикациях, которая уже накоплена в цифровой библиотеке в виде связанных данных предметной области и множества данных тезауруса адресата, как автора и пользователя библиотеки. Эта информация содержит связи, благодаря которым для идентификации авторства можно использовать контексты ключевых слов, множества соавторов и ассоциативные связи терминов в словарях и тезаурусах. Важно, что рассматривается массив научных публикаций, поскольку они имеют сложившуюся традиционную структуру, что позволяет сравнивать фиксированные элементы текста (аннотации, ключевые слова, коды классификаторов и т. д.). Таким образом, даже при полном совпадении имен в публикациях можно ставить вопрос об авторстве, если в цифровой библиотеке публикации соответствуют различным предметным областям. Разрешение таких противоречий осуществляется путем оценки множества связей всех элементов вторичной информации о публикации. Результатом сравнения может быть добавление автора в некоторую предметную область, т. е. расширение тезауруса адресата и персонального тезауруса автора, или появление в библиотеке полных тезок, но из разных областей знаний. Показано, что современные средства анализа данных позволяют оценить вклад автора в публикацию, несмотря на то, что конечно, реальный вклад в научное исследование может оценить только научное сообщество.

Ключевые слова: сравнение научных текстов, семантический поиск, тезаурус для онтологии знаний, информационный запрос с помощью тезауруса, семантические библиотеки, способы идентификации авторов, тезаурус адресата, вторичная информация, частотный словарь индивидуума, LibMeta.

Библиотека научных предметных областей SciLibRu

Ольга Муратовна Атаева, Наталия Павловна Тучкова, Кирилл Борисович Теймуразов, Айдин Абдышов, Михаил Геннадьевич Кобук

1324-1345

Аннотация:

Работа посвящена проблеме интеграции данных для представления научных предметных областей на основе их семантического описания в цифровой библиотеке SciLibRu. В качестве модели данных использованы онтология и граф знаний библиотеки LibMeta. Наполнение библиотеки SciLibRu осуществляется путем добавления данных научных журналов. Показано, как реализованы этапы анализа слабоструктурированных научных публикаций для их встраивания в онтологию библиотеки. При прохождении всех этапов предобработки данных формируется датасет, который может быть использован в обучении языковых моделей для запросов в русскоязычных научных предметных областях.

Приложение работы заключается в создании рекомендательных систем для работы с научными русскоязычными журналами.

Ключевые слова: икладная онтология, граф знаний, источники данных, анализ слабоструктурированных научных публикаций.

1 - 16 из 16 результатов