Найти

Методика сравнения программных решений распознавания текстов научных публикаций по качеству извлечения метаданных

Илия Игоревич Кузнецов, Олег Пантелеевич Новиков, Дмитрий Юрьевич Ильин

654-680

Аннотация:

Метаданные научных публикаций используются для построения каталогов, определения цитируемости публикаций и решения других задач. Автоматизация извлечения метаданных из PDF-файлов позволяет ускорить выполнение обозначенных задач, а от качества извлеченных данных зависит возможность их дальнейшего использования. Проанализированы существующие программные решения, в итоге отобраны три: GROBID, CERMINE, ScientificPdfParser. Предложена методика сравнения этих программных решений распознавания текстов научных публикаций по качеству извлечения метаданных. На основе методики проведен эксперимент по извлечению четырех типов метаданных (название, аннотация, дата публикации, имена авторов). Для сравнения программных решений использован набор из 112457 публикаций с разбиением на 23 предметные области, сформированный на основе данных Semantic Scholar. Приведен пример выбора эффективного программного решения извлечения метаданных в условиях заданных приоритетов для предметных областей и типов метаданных с использованием взвешенной суммы. Определено, что для приведенного примера CERMINE показывает эффективность на 10,5% выше, чем GROBID, и на 9,6% выше, чем ScientificPdfParser.

Ключевые слова: распознавание текста, научные публикации, метаданные, качество извлечения данных, методика.

Извлечение данных из сканированных документов со сходной структурой

Рустем Дамирович Саитгареев, Булат Рифатович Гиниятуллин, Владислав Юрьевич Топоров, Артур Александрович Атнагулов, Фарид Радикович Аглямов

667-688

Аннотация:

На текущий момент времени значительная часть передаваемых и хранимых данных не структурирована. Количество неструктурированных данных растет большими темпами каждый год, несмотря на то, что по таким данным трудно производить поиск, к ним нельзя совершать запросы и в целом их обработка не автоматизирована. В то же время наблюдается развитие систем электронного документооборота.

Настоящая работа предлагает инструмент для извлечения данных из фотографий бумажных документов, принимая во внимание их структуру и разметку. Представлены результаты разных испытанных подходов, включая нейронные сети и алгоритмический метод, а также проведен анализ полученных результатов.

Ключевые слова: нейронные сети, машинное обучение, извлечение структуры, извлечение структуры документов, OCR , неструктурированные данные , распознавание текста.

Использование DVM-системы при разработке программы для расчетов задачи радиационной магнитной газодинамики и исследования динамики плазмы в канале КСПУ

Владимир Александрович Бахтин, Дмитрий Александрович Захаров, Андрей Николаевич Козлов, Вениамин Сергеевич Коновалов

594-614

Аннотация: DVM-система предназначена для разработки параллельных программ научно-технических расчетов на языках C-DVMH и Fortran-DVMH. Эти языки используют единую DVMH-модель параллельного программирования и являются расширением стандартных языков Си и Фортран спецификациями параллелизма, оформленными в виде директив для компилятора. DVMH-модель позволяет создавать эффективные параллельные программы для гетерогенных вычислительных кластеров, в узлах которых в качестве вычислительных устройств наряду с универсальными многоядерными процессорами могут использоваться ускорители, графические процессоры или сопроцессоры Intel Xeon Phi. В статье описан опыт успешного применения DVM-системы для разработки параллельного программного кода для расчетов задачи радиационной магнитной газодинамики и исследования динамики плазмы в канале КСПУ.

Ключевые слова: автоматизация разработки параллельных программ, DVM-система, плазменный ускоритель, радиационная магнитная газодинамика.

Программно-технологическое обеспечение геопортала ИВМ СО РАН

О.Э. Якубайлик, А.А. Кадочников, А.Г. Матвеев, А.С. Пятаев, А.В. Токарев

Аннотация: Рассматриваются результаты работ по проектированию и разработке программно-технологического обеспечения геопортала. Представлены его основные компоненты, приводятся подробности их реализации. Обсуждается веб-интерфейс каталог метаданных, логика построения приложений на основе веб-сервисов геопортала. Приводит-ся перечень информационных систем, раз-работанных в рассматриваемой технологии.

Ключевые слова: геопортал, геоданные, каталог метаданных, пользовательский интерфейс, картографические приложения, веб-сервисы.

Базы знаний для описания информационных ресурсов в молекулярной спектроскопии. 4. Программное обеспечение ИВС "Молекулярная спектроскопия"

А.Ю. Ахлёстин, А.В. Козодоев, Н.А. Лаврентьев, А.И. Привезенцев, А.З Фазлиев

Аннотация: В статье описано промежуточное и прикладное программное обеспечение для создания информационно-вычислительной системы трехслойной архитектуры по молекулярной спектроскопии. Основное внимание уделено прикладному программному обеспечению информационного слоя и слоя знаний. Описаны базовые классы и пакеты классов, с помощью которых реализованы программные решения десяти задач, связанных с импортом, созданием, представлением и декомпозицией источников данных и информации, представляющих модели публикаций в количественной спектроскопии.

Ключевые слова: molecular spectroscopy, description of information resources, applied software, three-layer architecture system on molecular spectroscopy, basic classes, packages of classes, publications' models.

О вопросе измерения вклада программистских решений в производительность программ

Лидия Васильевна Городняя, Татьяна Анатольевна Андреева

738-759

Аннотация:

Статья нацелена на привлечение внимания к вопросам, возникающим в связи с проблемой оценки влияния программируемых решений на продуктивность программирования и производительность программ в процессе обучения программированию и улучшения программных приложений с сохранением их правильности. Проанализированы результаты некоторых экспериментов по этим вопросам. Рассматривается гипотеза, что функциональные модели могут быть полезны как метрическая шкала, позволяющая отделять особенности используемых языков и систем программирования от характеристик программ и запрограммированных решений. Описаны результаты небольшого демонстрационного эксперимента, направленного на исследование зависимости производительности программ от выбора компилятора и отдельно от представления программируемых решений на определённом языке программирования. Анализ полученных результатов позволяет наметить подход к созданию методики, позволяющей выяснять такие зависимости. При создании методики может быть учтён многолетний опыт оценки учебных и олимпиадных работ по программированию, проявивший ряд не вполне очевидных аспектов проблемы.

Ключевые слова: измерение качества программ, продуктивность программирования,, производительность программ, программистские решения, функциональное программирование.

Разработка экспертной системы по построению архитектуры программных продуктов

Андрей Евгеньевич Гришин, Карен Альбертович Григорян

121-136

Аннотация:

Статья посвящена автоматизации этапа проектирования программного обеспечения. Проанализированы причины высокого значения данного этапа и актуальность его автоматизации. Рассмотрены основные стадии названного этапа и существующие системы, позволяющие автоматизировать каждую из них. Предложено собственное решение в рамках задачи рефакторинга структуры классов на основе метода комбинаторной оптимизации. Разработан и протестирован на реальной модели метод решения, позволяющий улучшить качество иерархии классов.

Ключевые слова: автоматизация, проектирование, рефакторинг, архитектура ПО, ООП, оптимизация.

Концепт инструмента автоматического создания сценаpного прототипа компьютерной игры

Гульнара Фаритовна Сахибгареева, Влада Владимировна Кугуракова

235-249

Аннотация:

На основе существующих решений описано представление об архитектуре инструмента генерации сценарного прототипа из текста. Сформированы требования к разрабатываемому инструменту. Разработан прототип инструмента, иллюстрирующий основной принцип работы пользователя с приложением.

Ключевые слова: игровая сценаристика, нарративный дизайн, сценарный прототип, прототипирование, разработка игр, погружение, повествование.

Распределение температуры на границе астеносфера–литосфера (математическая модель)

Александр Наумович Четырбоцкий

376-401

Аннотация:

Рассмотрена конвекция вещества верхней мантии Земли, которая в приближении Обербека–Буссинеска обусловлена термогравитационной дифференциацией. В рамках этого приближения выполнено 2-D численное моделирование конвективных течений вещества среды. Уравнение для температуры следует из соотношения баланса энтропии, где вследствие учета в системе переменной вязкости присутствует эффект диссипации энергии. Краевые условия отвечают заданию общепринятой на границе верхней и нижней мантий температуры, а для боковых границ – их теплоизолированность. На границе астеносфера–литосфера приняты допущения о том, что динамика тепла определяется его потоком с ближнего к границе слоя астеносферы, рассеиванием части тепла вдоль границы и расходами тепла на плавление вещества литосферы. Численное решение определяющих уравнений выполнено в переменных функция тока – завихренность. Приведена итерационная схема их решения. Обсуждены вопросы программной реализации аппарата численного моделирования. Показано, что при таких краевых условиях в рассматриваемой системе формируется квазипериодических режим колебаний тепла.

Ключевые слова: астеносфера, приближение Обербека–Буссинеска, мантийная конвекция, граничные условия, численный алгоритм.

Создание метода сравнения реляционных таблиц

Азат Шавкатович Якупов, Даниил Андреевич Клинов

173-183

Аннотация: Статья посвящена созданию быстрого метода сравнения огромного количества данных таблиц в рамках реляционных систем управления базами данных. Проведено исследование существующих решений и показана востребованность создания эффективного метода сравнения реляционных отношений. Создан алгоритм с использованием вероятностной структуры данных «Исчисляемый фильтр Блума» и метода Монте-Карло. Предлагаемое решение уникально в своем направлении, так как использует наименьшее количество временных ресурсов. Построена вероятностная модель созданного алгоритма. В процессе написания статьи были выявлены пути развития алгоритма в сторону внедрения параллелизации процессов.

Ключевые слова: мультимножество, сравнение реляционных таблиц, гетерогенная система, исчисляемый фильтр Блума, метод Монте-Карло, репликация, Oracle, PostgreSQL, вероятностная структура данных.

Создание экосистемы по обработке данных для научных исследований в области геологии

Виталий Сергеевич Ерёменко, Вера Викторовна Наумова

336-347

Аннотация:

Рассмотрены разнородные территориально-распределённые вычислительные системы по обработке геологических данных и подходы по организации взаимодействия с этими системами. Исследуемые системы классифицированы на несколько групп, исходя из принципов их функционирования и выбранных технологических решений. Для каждого типа систем приведено описание их основных свойств, включая возможные способы для взаимодействия.

На основе проведённого анализа предложен подход к организации единого рабочего пространства с доступом к разнородным территориально-распределённым вычислительным системам в рамках общей экосистемы. Описаны архитектура предлагаемой экосистемы и правила взаимодействия её участников. Продемонстрирован программный прототип, реализующий названные принципы, на примере нескольких разнородных систем по обработке геологической информации.

Ключевые слова: вычислительно-аналитическая среда, облачные сервисы, веб-сервисы, программные платформы.

Автоматизированная система выбора оптимальных методов решения акустических задач на базе онтологии

Ирина Леонидовна Артемьева, Алина Евгеньевна Чусова

719-737

Аннотация:

Представлен программный комплекс, который позволит специалистам в области архитектурной акустики выбрать наиболее подходящие способы моделирования звука и подбора отделочных материалов в зависимости от поставленных задач и параметров помещения. Отличительной особенностью данной системы является наличие онтологии предметной области, описывающей термины и связи между понятиями, а также модулей для решения различных задач в области архитектурной акустики. Подобный подход позволит рекомендовать пользователю наиболее подходящие для его запроса методы моделирования вследствие учета специфики помещения и функциональных требований клиента. Программная система позволит по запросу оптимизировать и распараллелить программы, которые написаны с помощью предметно-ориентированного языка программирования.

Описаны принципы анализа программного кода для выявления участков экономии и применения трансформаций, представленных в банке паттернов. Рассмотрен также подход к построению предметно-ориентированного языка программирования, основанного на онтологии предметной области ODSL (Ontology-Based Domain-Specific Language) и позволяющего специалистам описывать алгоритмы, не вникая в используемые методы оптимизации и распараллеливания. Новизна работы заключается в предложенной архитектуре модулей, основанных на прикладной онтологии, что позволяет адаптировать решение под другие предметные области.

Ключевые слова: онтология, архитектурная акустика, оптимизация, параллелизм, ODSL.

Программный фреймворк для реализации взаимодействия с пользовательскими интерфейсами iOS-приложений на основе окулографии

Никита Станиславович Афанасьев

198-245

Аннотация:

Использование технологий отслеживания взгляда для взаимодействия с пользовательским интерфейсом iOS-приложений существенно затруднено отсутствием унифицированного подхода к их интеграции. Существующие решения либо жестко ограничены своей предметной областью, либо представляют собой исключительно исследовательские проекты, непригодные для решения прикладных задач. В статье рассматривается создание фреймворка, осуществляющего отслеживание взгляда пользователя на экране Apple-устройств с использованием нативных технологий, а также предоставляющего унифицированный подход к разработке приложений, управляемых при помощи взгляда.

Ключевые слова: gaze tracking, eye tracking, отслеживание взгляда, окулография, обработка жестов, TrueDepth, ARKit, SceneKit, UIKit, iOS, UX, UI.

Система тестирования контроллеров, основанная на распознавании текста на экране

Александр Александрович Докукин

1368-1384

Аннотация:

Описано решение задачи тестирования контроллеров на основе чтения информации с их экрана. Для этого разработана программно-аппаратная система, состоящая из камеры и программных модулей, реализующих необходимые алгоритмы и методы: модуля предобработки изображения; модуля определения типа меню; модуля обработки символов шрифта; модуль чтения текста, в том числе, написанного различными шрифтами; собственно модуля тестирования. Система реализована для контроллеров определенного типа с монохромным дисплеем 128 х 64 точек. Все методы реализованы на языке Python с использованием популярных библиотек. Система внедрена в эксплуатацию и на данный момент осуществляет автоматизацию нескольких наиболее трудоемких тестов. Поддерживается расширение их набора в виде плагинов.

Ключевые слова: компьютерное зрение, распознавание текста, тестирование контроллеров.

Анализ оптимизации программной системы на примере свободных автоматизированных библиотечно-информационных систем

Олег Иванович Васильев, Валентин Юрьевич Медведев

151-163

Аннотация:

Статья посвящена исследованию возможностей оптимизации работоспособности и повышения эффективности функционирования сложных многофункциональных программных систем на примере свободных автоматизированных библиотечно-информационных систем (далее – АБИС).

К 2023 году в мире накоплен ценный опыт создания и эксплуатации интегрированных АБИС различного масштаба и назначения, однако вопросы совершенствования их проектных решений остаются актуальными. В первую очередь это касается необходимости оптимизации структуры исходного программного кода с целью повышения его читаемости и поддерживаемости, снижения времени выполнения отдельных функциональных модулей, уменьшения объёма занимаемой оперативной памяти.

В рамках исследования был проведён сравнительный анализ исходных кодов нескольких действующих открытых АБИС, реализованных на различных языках программирования. Были изучены основные подходы к проектированию структуры кода, выявлены наиболее частотно используемые алгоритмы и паттерны. Для оценки степени оптимизированности исходного кода был разработан комплекс показателей, включающий оценку структуры, читаемости, модульности и других характеристик. На этой основе проведено сравнение отдельных фрагментов кода до и после применения известных техник рефакторинга.

В результате проведённой работы удалось выявить наиболее распространённые ошибки и недочёты в структуризации исходных кодов АБИС, определить основные направления их оптимизации. Получены данные о возможном снижении затрат на тестирование и техническую поддержку посредством улучшения качества исходных кодов.

Ключевые слова: исправление программного кода, оптимизация программной системы, рефакторинг, многоязыковая система, оценка качества программных систем, автоматизированные библиотечно-информационные системы, процесс разработки программного обеспечения.

Автоматизация чтения связанных данных из реляционных и нереляционных баз данных в контексте использования стандарта JPA

Ангелина Сергеевна Савинчева, Александр Андреевич Ференец

656-678

Аннотация:

Описан процесс автоматизации управления операцией чтения связанных данных из реляционных и нереляционных баз данных.

Разработанный программный инструмент основан на использовании стандарта JPA (Java Persistence API), который определяет возможности контроля жизненного цикла сущностей в Java-приложениях. Спроектирована архитектура встраивания в событийные процессы, позволяющая интегрировать решение в проекты вне зависимости от используемой реализации JPA. Реализована поддержка различных стратегий загрузки данных, типов и параметров отношений. Осуществлена оценка производительности инструмента.

Ключевые слова: JPA, ORM, Java, базы данных, реляционные базы данных, нереляционные базы данных.

Формирование академических групп и проектных команд на основе сбора данных об обучающихся

Наталья Александровна Коргутлова, Светлана Юрьевна Басаргина, Михаил Михайлович Абрамский, Марат Альбертович Солнцев, Таисия Сергеевна Бузукина

193-208

Аннотация: Обсуждены вопросы использования данных об обучающихся, представленных в электронном виде, в задачах генерации распределений обучающихся по академическим группам, элективам и проектным командам. Проиллюстрировано применение алгоритмов машинного обучения для этих задач. Показана возможность использования данных, собранных из социальных сетей.

Ключевые слова: личностный портрет студента, кластеризация, распределение по компетенциям, анализ социальных сетей.

Автоматизация сортировки материалов по тексту сценария для видеомонтажа

Андрей Дмитриевич Неманов, Ирина Сергеевна Шахова

533-557

Аннотация:

Процесс видеомонтажа включает множество трудоемких операций по сортировке и подготовке материалов, что требует значительных временных затрат. В статье описана разработка программного решения для автоматизации этих процессов с использованием технологии машинного обучения. Основное внимание уделено созданию системы, способной классифицировать и сортировать медиафайлы по тексту сценария, тем самым повышая эффективность подготовки материалов к монтажу. Система включает модули распознавания речи, классификации аудио и видео, а также алгоритмы определения соответствия сценарию. Тестирование показало, что предложенная система правильно классифицирует медиафайлы в большинстве случаев, что позволяет существенно сократить время на черновой монтаж.

Ключевые слова: видеомонтаж, автоматизация, машинное обучение, распознавание речи, классификация аудио, классификация видео, coreml, параллельные вычисления, сценарий, soundex, tf-idf, косинусное сходство, обработка естественного языка.

Алгоритмы формирования метаданных математических ретро-коллекций на основе анализа структурных особенностей документов

Полина Олеговна Гафурова, Александр Михайлович Елизаров, Евгений Константинович Липачёв

238-271

Аннотация:

Представлены решения основных задач, связанных с формированием цифровых математических коллекций из документов, изданных в доцифровой период, – такие коллекции обозначены в работе как ретро-коллекции. Приведены алгоритмы создания метаописания ретро-коллекций, основанные на анализе структуры математических документов и применении программных инструментов выделения метаданных. Дано описание ретро-коллекций, сформированных с помощью разработанных алгоритмов и включенных в состав фабрики метаданных цифровой математической библиотеки Lobachevskii-DML. Указаны схемы формирования метаданных и методы нормализации извлеченных метаданных в соответствии со схемами и требованиями интегрирующих математических библиотек.

Ключевые слова: Lobachevskii-DML, фабрика метаданных, управление метаданными, цифровая ретро-коллекция.

Система автоматизации численной оценки сходства Android-приложений

Валерий Владимирович Петров

336-365

Аннотация:

Работа посвящена проектированию и разработке системы автоматизации численной оценки сходства Android-приложений. Задача оценки сходства приложений сведена к оценке сходства множеств графов потока управления, построенных на основе кода из classes.dex файлов приложений. Значение сходства вычислено на основе матрицы сходства. Для сравнения графов потока управления использованы алгоритмы редактирования графов и расстояние Левенштейна. Сформулированы критерии сходства приложений и исследованы формы их представления. Представлены виды моделей Android-приложений и методы их построения. Разработан прототип системы автоматизации численной оценки сходства Android-приложений. С помощью инструментов параллельного программирования выполнена оптимизация программного решения. Проведены эксперименты и сделан вывод о способности разработанной системы выявлять сходства между Android-приложениями.

Ключевые слова: сходство Android-приложений, сходство программ, матрица сходства, расстояние редактирования графов потока управления, визуализация матрицы сходства, граф потока управления.

Образовательная аналитика и адаптивное обучение с использованием модели студента в интеллектуальных обучающих системах

Михаил Владиславович Каяшев, Денис Юрьевич Макаров, Антон Александрович Марченко

181-192

Аннотация:

Для поддержки адаптивного обучения и образовательной аналитики в интеллектуальных обучающих системах необходимо собирать и обрабатывать данные об успеваемости студентов и их индивидуальных характеристиках. Это можно реализовать с помощью модели студента. Анализ подходов к моделированию студента показал оптимальным применение нескольких типов моделей, исходя из требований, составленных для разрабатываемой обучающей системы. Были выбраны и объединены в одну модель три подхода: оверлейный, сеть Байеса, моделирование ошибочных знаний. Использование оверлейной модели позволяет строить индивидуальные траектории обучения студентов. Сети Байеса реализуют компетентностный подход в обучении. Модель ошибок отслеживает ошибочные знания студентов и помогает им исправить их на ранних стадиях. Модель студента, объединяющая в себе данные подходы, является подходящей для реализации персонализированного обучения, позволяет преподавателю отслеживать успеваемость студентов по различным характеристикам, а также дает возможность легко представить в системе карту тем, знаний, компетентности студентов в различных областях в виде графа, что является удобным и понятным представлением.

Ключевые слова: интеллектуальная обучающая система, модель студента, компетенция, адаптивное обучение, образовательная аналитика, оверлейная модель, байесовская сеть, доменная модель.

Цифровой паспорт карьерной траектории, основанный на технологии распределенных реестров

Айдар Ильдарович Шайфутдинов, Айрат Фаридович Хасьянов

268-286

Аннотация:

Рассмотрены проблемы, связанные с документальным сопровождением процесса трудоустройства и фиксации трудового стажа. Сегодня эти задачи решаются через бумажные контракты и, в Российской Федерации, посредством «трудовых книжек». Предлагается заменить существующий бумажный документооборот программным решением, основанным на технологии распределенных реестров (блокчейн) и смарт-контрактах.

Ключевые слова: трудовые отношения, трудовой стаж, бумажный документооборот, блокчейн, смарт-контракты, цифровизация, децентрализованные приложения, Ethereum, Solidity, IPFS.

Реализация интерактивного приложения на полнокупольном экране

Руслан Дамирович Ахметшарипов, Влада Владимировна Кугуракова, Мурад Рустэмович Хафизов

166-179

Аннотация: Представлено интерактивное приложение для полнокупольного экрана с поддержкой нескольких пользователей. Рассмотрены решения для интерактивного взаимодействия с использованием носимых устройств или смартфонов.

Ключевые слова: полный купол, интерактивность, многопользовательские приложения.

Инструмент для оперативной диагностики памяти нейросетевых архитектур языковых моделей

Павел Андреевич Гавриков, Азамат Комилжон угли Усманов, Дмитрий Реваев, Сергей Николаевич Бузыканов

1346-1367

Аннотация:

Большие языковые модели (Large Language Models, LLM) прошли путь от простых N-граммных систем до современных универсальных архитектур, однако ключевым ограничением остается квадратичная сложность механизма самовнимания по длине входной последовательности. Это существенно увеличивает потребление памяти и вычислительных ресурсов, а с появлением задач, требующих рекордно длинных контекстов, создает необходимость разработки новых архитектурных решений. Поскольку для исследования предлагаемой архитектуры требуется длительное и дорогостоящее обучение полновесной сети, необходимо разработать инструмент, который позволял бы быстро дать предварительную оценку архитектуре с точки зрения внутренней памяти.

В настоящей работе предложен метод количественной оценки внутренней памяти нейросетевых архитектур на основе синтетических тестов, не требующих больших корпусов данных. Под внутренней памятью понимается объем информации, который модель способна воспроизвести без обращения к исходным входам.

Для верификации подхода разработан программный комплекс, апробированный на архитектурах GPT-2 и Mamba. Использованы задачи копирования, инверсии и извлечения значения по ключу. Проведенное сравнение по точности предсказаний, распределению ошибок и вычислительным затратам позволяет оперативно оценивать эффективность и перспективность архитектур LLM.

Ключевые слова: большие языковые модели, архитектура нейросетей, внутренняя память, долговременное хранение информации, обработка последовательностей, измерение функциональной памяти, сравнение архитектур.

Результаты поиска