Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Онтологический подход к оценке графов знаний в доменной области машиностроительных систем полного жизненного цикла

Виталий Владимирович Гладышев

719-738

Аннотация:

Работа посвящена проблеме применения онтологического подхода при построении датасета для оценки и сравнения систем обогащения контекста большой языковой модели с использованием графов знаний в доменной области машиностроительных систем полного жизненного цикла. В доменной области сложно получить необходимое количество текстовых данных с формальной логической структурой для формирования оценочного набора без использования сгенерированных синтетических данных. Для исключения внесения искажений и галлюцинаций при формировании оценочного набора предложено оригинальное решение проблемы дефицита данных за счет извлечения онтологии непосредственно из файлов изделий и сборок, соответствующих стандарту STandard for Exchange of Product model data что потенциально позволяет использовать все данные об изделиях как источник для масштабирования оценочных данных. Целью работы стали создание датасета структурированных текстовых данных в доменной области машиностроительных систем полного жизненного цикла, разработка методики оценки и реализация конвейеров обогащения контекста большой языковой модели с применением и без применения графов знаний для анализа вклада систем с извлечением структуры данных в качество генерируемых ответов. Предложен новый источник оценочных данных, разработана новая методика формирования текстовых оценочных данных с сохранением логической структуры, реализован конвейер для использования сгенерированных оценочных данных. Получены результаты оценки, подтверждающие положительный вклад систем с извлечением структурированных данных в качество генерируемых ответов в доменной области машиностроительных систем полного жизненного цикла.

Ключевые слова: онтология, датасет, система полного жизненного цикла СПЖЦ/PLM, система автоматизированного проектирования САПР/CAD, большая языковая модель БЯМ/LLM, генерация с обогащением контекста RAG, GraphRAG, STandard for Exchange of Product model data – STEP.

Интеллектуальный поиск сложных объектов в массивах больших данных

Александр Михайлович Гусенков

40-76

Аннотация: Предложен подход к интеллектуальному поиску сложных объектов в различных типах структурно размеченных текстов, который может быть применен для обработки Больших данных (Big Data). Исследуются два вида представления информационных объектов: реляционные базы данных (РБД), которые структурно размечены своими схемами, и полнотекстовые естественнонаучные документы, содержащие математические выражения (формулы). Для таких полнотекстовых документов предлагается дополнительная автоматизированная разметка для организации поиска формул. В обоих случаях источником информации для построения онтологии и, в дальнейшем, организации поиска являются тексты на естественном языке, которые относятся к слабоструктурированным данным. Для РБД это комментарии к наименованиям таблиц и их атрибутов, а для естественнонаучных документов (статей, монографий и т. д.) – текстовое содержимое размеченных документов.

Ключевые слова: большие данные, семантический поиск, слабоструктурированные данные, онтологии, реляционные базы данных, естественнонаучные тексты, разметка математических выражений.

Формализация процессов формирования пользовательских коллекций в цифровом пространстве научных знаний

Николай Евгеньевич Каленов, Ирина Николаевна Соболевская, Александр Николаевич Сотников

433-450

Аннотация: Исследована задача формирования цифрового пространства научных знаний (ЦПНЗ). Рассмотрено отличие этого понятия от общего понятия пространства знаний. ЦПНЗ представлено как множество, содержащее объекты, верифицированные мировым научным сообществом. Формой структурированного представления цифрового пространства знаний является семантическая сеть, основной принцип организации которой основан на системе классификации объектов и последующем построении их иерархии, в частности, по принципу наследования. Введена классификация объектов, составляющих контент ЦПНЗ. Предложена модель ЦПНЗ как совокупности непересекающихся множеств, содержащих цифровые образы реальных объектов и их характеристики, обеспечивающие отбор и визуализацию объектов в соответствии с многоаспектными пользовательскими запросами. Определено понятие пользовательской коллекции, предложена иерархическая классификация типов пользовательских коллекций. Использование понятий теории множеств при построении ЦПНЗ позволяет разбивать информацию по уровням детализации и формализовать алгоритмы обработки пользовательских запросов, что проиллюстрировано конкретными примерами.

Ключевые слова: семантическая сеть, информационное пространство, научные знания, электронная библиотека, уровни детализации, иерархия информационных объектов.

Извлечение данных из сканированных документов со сходной структурой

Рустем Дамирович Саитгареев, Булат Рифатович Гиниятуллин, Владислав Юрьевич Топоров, Артур Александрович Атнагулов, Фарид Радикович Аглямов

667-688

Аннотация:

На текущий момент времени значительная часть передаваемых и хранимых данных не структурирована. Количество неструктурированных данных растет большими темпами каждый год, несмотря на то, что по таким данным трудно производить поиск, к ним нельзя совершать запросы и в целом их обработка не автоматизирована. В то же время наблюдается развитие систем электронного документооборота.

Настоящая работа предлагает инструмент для извлечения данных из фотографий бумажных документов, принимая во внимание их структуру и разметку. Представлены результаты разных испытанных подходов, включая нейронные сети и алгоритмический метод, а также проведен анализ полученных результатов.

Ключевые слова: нейронные сети, машинное обучение, извлечение структуры, извлечение структуры документов, OCR , неструктурированные данные , распознавание текста.

Методы и средства визуализации сетей соавторства и сетей цитирования больших научных порталов

З.В. Апанович, П.С. Винокуров

Аннотация: Благодаря быстрому развитию направления Semantic Web и его новой ветви Linked Open Data, в Интернете становятся доступными большие объемы структурированной информации, размещенной на научных порталах, посвященных различным научным направлениям. Наиболее достоверным источником информации, посвященной любому научному направлению, являются собственно научные публикации, составляющие основное наполнение таких порталов. Эти данные нуждаются в средствах анализа, которые могли бы способствовать упрощению их понимания и оптимизации научного менеджмента. В данной работе описываются новые алгоритмы визуализации графов, реализованные в ИСИ СО РАН, и демонстрируется применение этих алгоритмов для визуализации сетей соавторства и сетей цитирования, извлеченных из научных порталов, входящих в облако Linked Open Data.

Ключевые слова: онтология, информационное наполнение, методы визуализации информации, силовой алгоритм, радиальный алгоритм, иерархические жгуты ребер, поуровневое изображение ориентированного графа, сети цитирования, Open Linked Data.

Формирование структурированных представлений научных журналов для интеграции в граф знаний и семантического поиска

Ольга Муратовна Атаева, Михаил Геннадьевич Кобук

1306-1323

Аннотация:

Работа посвящена проблеме развития библиотеки научных предметных областей SciLibRu, как продолжения семантического описания научных трудов проекта LibMeta. В основе этой библиотеки лежит концептуальная модель данных, структура и семантика которой сформированы на принципах онтологического моделирования. Такой подход обеспечивает строгое описание предметной области, формализацию взаимосвязей между сущностями и возможность дальнейшего автоматизированного анализа данных. Целью настоящего исследования были разработка и экспериментальное применение методов структуризации содержимого научных журналов в формате LaTeX для их интеграции в онтологию библиотеки и обеспечения семантического поиска.

Предложен алгоритм трансляции в формат XML данных, представленных множеством файлов, для интеграции в онтологию библиотеки. Реализован модуль векторного поиска, основанный на вычислении эмбеддингов с использованием языковых моделей. Выявлены закономерности распределения эмбеддингов и факторы, влияющие на точность ранжирования результатов поиска. Проведено тестирование двух названых компонентов.

Разработанный метод составляет основу для автоматического включения содержимого научных журналов в граф знаний SciLibRu и создания обучающих корпусов для языковых моделей, ограниченных рамками научных предметных областей. Полученные результаты способствуют развитию систем навигации по графу знаний журналов, а также рекомендательных механизмов и инструментов интеллектуального поиска по русскоязычным научным текстам.

Ключевые слова: полуструктурированные данные, онтология текста, LaTeX, векторное представление текста, полнотекстовый поиск, семантический поиск.

Библиотека научных предметных областей SciLibRu

Ольга Муратовна Атаева, Наталия Павловна Тучкова, Кирилл Борисович Теймуразов, Айдин Абдышов, Михаил Геннадьевич Кобук

1324-1345

Аннотация:

Работа посвящена проблеме интеграции данных для представления научных предметных областей на основе их семантического описания в цифровой библиотеке SciLibRu. В качестве модели данных использованы онтология и граф знаний библиотеки LibMeta. Наполнение библиотеки SciLibRu осуществляется путем добавления данных научных журналов. Показано, как реализованы этапы анализа слабоструктурированных научных публикаций для их встраивания в онтологию библиотеки. При прохождении всех этапов предобработки данных формируется датасет, который может быть использован в обучении языковых моделей для запросов в русскоязычных научных предметных областях.

Приложение работы заключается в создании рекомендательных систем для работы с научными русскоязычными журналами.

Ключевые слова: икладная онтология, граф знаний, источники данных, анализ слабоструктурированных научных публикаций.

Программный модуль формирования цифрового математического пространства на основе графов знаний

Вадим Игоревич Гурьянов, Александр Михайлович Елизаров

622-639

Аннотация:

Современное информационное пространство содержит множество данных, однако они зачастую слабо структурированы, трудно находимы и не всегда корректны. Это создаёт дополнительные трудности при исследованиях, поэтому в настоящее время формируются цифровые пространства научных знаний, в частности, на основе графов знаний.

Для обеспечения качества информации такие графы часто наполняются данными вручную, что требует больших затрат времени. Поэтому создание инструмента, предоставляющего возможность автоматического наполнения графа данными, а также обеспечивающего контроль их качества, позволит упростить и ускорить процесс формирования цифровых пространств научных знаний.

Предложены методы автоматизации наполнения графа данными, обеспечивающие параллельный контроль их целостности. На основе предложенных методов разработан программный модуль, описаны механизмы его функционирования и его архитектура.

Ключевые слова: цифровое пространство научных знаний, формирование цифровых пространств научных знаний, графы знаний, автоматизация построения графов знаний.

Автоматическое добавление SEO-метаданных в новостные статьи с использованием QWEN-coder

Хамза Салем, Александр Сергеевич Тощев

287-303

Аннотация:

Обобщен ранее разработанный конвейер обогащения новостных статей структурированными метаданными и представлена его обновленная конфигурация, в которой GPT-3 (Generative Pre-trained Transformer 3) – языковая модель от компании OpenAI – заменен на открытую модель Qwen-Coder. Новая версия, как и ранее, использует набор из 400 страниц, отобранных через Google News, и остается совместимой с Google Rich Results Test. Эксперименты показали, что качество, сопоставимое с GPT-3, достижимо при локальном запуске на типовом офисном настольном компьютере (CPU, без GPU). Установлено, что замена, указанная выше, снижает зависимость от платных облачных сервисов и обеспечивает более высокую производительность по сравнению с GPT-версией; дана оценка сходства результатов обогащения для Qwen-Coder относительно базовой реализации на GPT-3. Предложенные инструменты снижают порог внедрения семантической разметки и расширяют ее практическое применение, в том числе в цифровой журналистике.

Ключевые слова: семантическая паутина, майнинг шаблонов, Qwen-Coder, новостные веб-страницы, читабельность, структурированные данные.

Университетская библиотека в научно-исследовательском процессе вуза: опыт систематизации данных о публикационной активности

Натела Нодарьевна Квелидзе-Кузнецова, Светлана Александровна Морозова, Алексей Дмитриевич Матюшенко

923-941

Аннотация: Фундаментальная библиотека Герценовского университета традиционно является ключевым звеном в цепи построения эффективной научно-исследовательской деятельности университета и ее воплощения в публикациях. Новым этапом данной деятельности стали создание и развитие библиотекой программного модуля, функционирующего в РГПУ им. А. И. Герцена и позволяющего в режиме реального времени осуществлять вывод структурированных текущих и сравнительных данных о наукометрических показателях преподавателей и научных сотрудников университета. Программный модуль был создан на основе взаимодействия базы данных с API наукометрических ресурсов: Российский индекс научного цитирования, Scopus и Web of Science с целью дальнейшей обработки и систематизации получаемых данных. Особое внимание авторами уделено перспективам развития созданного комплекса и возможностям интеграции данных, в том числе, уже реализованной синхронизации сведений с профилями преподавателей на сайте университета.

Ключевые слова: индексы цитирования, наукометрия, наукометрические показатели, базы данных, информационные системы, программные модули, API.

Контроллер реалистичного поведения стай/стад животных

Влада Владимировна Кугуракова, Александр Михайлович Степанов

239-272

Аннотация:

Работа посвящена рассмотрению процесса моделирования реалистичного контроллера поведения групп объектов. Проведено исследование основных приемов и принципов, используемых при создании реалистичного контроллера поведения автономных агентов, объединенных в связанные группы. На основе этих данных создан контроллер поведения.

Исследована эффективность поведения групп автономных агентов, рассмотрены возможности использования системы локальных скалярных полей с целью построения максимально точной математической модели, проведён анализ возможности создания иерархической системы мультиагентных подгрупп в рамках группы, проведены эксперименты для оценки корректности разработанного контролера.

Ключевые слова: контроллер, группа, модель поведения.

Отладка параллельных программ в DVM-системе

Владимир Александрович Бахтин, Дмитрий Александрович Захаров, Александр Александрович Ермичев, Виктор Алексеевич Крюков

866-886

Аннотация: DVM-система предназначена для разработки параллельных программ научно-технических расчетов на языках C-DVMH и Fortran-DVMH. Эти языки используют единую DVMH-модель параллельного программирования и являются расширением стандартных языков Си и Фортран спецификациями параллелизма, оформленными в виде директив для компилятора. DVMH-модель позволяет создавать эффективные параллельные программы для гетерогенных вычислительных кластеров, в узлах которых в качестве вычислительных устройств наряду с универсальными многоядерными процессорами могут использоваться ускорители, графические процессоры или сопроцессоры Intel Xeon Phi. В статье описыны методика отладки параллельных программ в DVM-системе, а также новые возможности DVM-отладчика.

Ключевые слова: автоматизация разработки параллельных программ, автоматизация отладки параллельных программ, динамический контроль, сравнительная отладка, DVM-система, ускоритель, ГПУ, Фортран, Си.

Развитие DVM-системы

247-270

Аннотация: DVM-система предназначена для разработки параллельных программ научно-технических расчетов на языках C-DVMH и Fortran-DVMH. Эти языки используют единую DVMH-модель параллельного программирования и являются расширением стандартных языков Си и Фортран спецификациями параллелизма, оформленными в виде директив для компилятора. DVMH-модель позволяет создавать эффективные параллельные программы для гетерогенных вычислительных кластеров, в узлах которых в качестве вычислительных устройств наряду с универсальными многоядерными процессорами могут использоваться ускорители, графические процессоры или сопроцессоры Intel Xeon Phi. В статье представлены новые возможности DVM-системы, которые были разработаны в последнее время.

Ключевые слова: автоматизация разработки параллельных программ, DVM-система, ускоритель, ГПУ, Фортран, Си, нерегулярная сетка, неструктурированная сетка.

Использование DVM-системы при разработке программы для расчетов задачи радиационной магнитной газодинамики и исследования динамики плазмы в канале КСПУ

594-614

Аннотация: DVM-система предназначена для разработки параллельных программ научно-технических расчетов на языках C-DVMH и Fortran-DVMH. Эти языки используют единую DVMH-модель параллельного программирования и являются расширением стандартных языков Си и Фортран спецификациями параллелизма, оформленными в виде директив для компилятора. DVMH-модель позволяет создавать эффективные параллельные программы для гетерогенных вычислительных кластеров, в узлах которых в качестве вычислительных устройств наряду с универсальными многоядерными процессорами могут использоваться ускорители, графические процессоры или сопроцессоры Intel Xeon Phi. В статье описан опыт успешного применения DVM-системы для разработки параллельного программного кода для расчетов задачи радиационной магнитной газодинамики и исследования динамики плазмы в канале КСПУ.

Ключевые слова: автоматизация разработки параллельных программ, DVM-система, плазменный ускоритель, радиационная магнитная газодинамика.

Автоматические и полуавтоматические методы построения графа знаний предметной области и расширения онтологии

Андрей Петрович Халов, Ольга Муратовна Атаева

1481-1519

Аннотация:

Рассмотрен цикл построения графа знаний и расширения онтологии для специальной предметной области, описывающей процесс управления потоками данных в службах информационной поддержки. Предложена методика формирования корпуса данных для наполнения онтологии с автоматической псевдоразметкой, включающей специальные категории для фиксации ранее не представленных классов и отношений. Обучена специализированная модель извлечения именованных сущностей на корпусе данных объемом 3 млн токенов с 92 метками. Результаты были использованы для интеграции извлеченных фактов, что увеличило граф знаний до 0.98 млн триплетов, при этом коэффициент расширения графа (отношение общего числа фактов к явным триплетам) увеличился с 2.65 до 3.52 при сохранении логической согласованности. Наборы токенов с одинаковыми метками были преобразованы в устойчивые семантические множества, что позволило полуавтоматически расширить онтологию. В онтологию добавлены 12 новых классов, которые были извлечены из неструктурированных текстовых данных. Показан прикладной пример запросов и дальнейшей аналитики.

Ключевые слова: онтология, DOLCE, граф знаний, NER, BIO-разметка, RDF/OWL, SPARQL.

О включении музейных объектов в Единое цифровое пространство научных знаний

Сергей Александрович Кириллов, Ирина Николаевна Соболевская

1043-1060

Аннотация:

Работа посвящена вопросам интеграции музейных объектов в Единое цифровое пространство научных знаний (ЕЦПНЗ). Рассмотрена эволюция музейного предмета от изолированного артефакта до «интеллектуального интерфейса» – связанного элемента сети знаний. Описана технология оцифровки трехмерных музейных объектов с помощью spin-съемки. На примере коллекции муляжей грибов Государственного биологического музея продемонстрирован процесс включения объектов в ЕЦПНЗ с использованием структурированных данных и интерактивных 3D-моделей. Работа выполнена в рамках государственного задания и демонстрирует потенциал ЕЦПНЗ как универсальной среды для сохранения и распространения научного наследия.

Ключевые слова: Единое цифровое пространство научных знаний, интеграция музейных объектов, spin-анимация, онтология, 3D-объект, воксель, облако точек.

1 - 16 из 16 результатов