Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Цифровая инфраструктура электронного научного журнала: автоматизация редакционно-издательских процессов и система сервисов

Миляуша Салахутдиновна Галявиева, Александр Михайлович Елизаров, Евгений Константинович Липачёв

408-465

Аннотация:

Описаны современные модели и средства публикации и распространения научных знаний. Охарактеризованы современные информационные системы управления научными изданиями и сервисы, определяющие их функциональность.

Введено понятие цифровой инфраструктуры электронного научного журнала как комплекса, который объединяет программную платформу, реализующую основные рабочие процессы управления электронным журналом, и информационные системы, которые обеспечивают функционирование как основных, так и дополнительных сервисов, учитывающих, в частности, специфику предметной области журнала.

Представлен подход к организации цифровой инфраструктуры электронного научного журнала на основе открытой программной системы Open Journal Systems (OJS). Предложены сервисы, расширяющие функциональные возможности этой системы и учитывающие специфику предметной области научных журналов. На основе технологии расширения функционала OJS созданы программные модули, обеспечивающие автоматизацию ряда редакционных процессов электронного научного журнала.

Представлена система сервисов автоматической обработки коллекций научных документов. Эти сервисы обеспечивают проверку соответствия документов коллекций принятым правилам формирования коллекций и преобразования документов в установленные форматы; структурный анализ документов и извлечение метаданных, а также их интеграцию в научное информационное пространство. Система сервисов позволяет автоматически выполнять набор операций, который не реализуем за практически приемлемое время при традиционной «ручной» обработке электронного контента, и предназначена для обработки больших коллекций научных документов.

Охарактеризованы алгоритмы автоматической стилевой валидации текстов на этапе регистрации статьи в информационной системе электронного научного журнала, автоматического подбора рецензентов, рассылки уведомлений и контроля сроков рецензирования.

Представлены методы обработки документов, содержащих математические формулы, в частности, алгоритм поиска по формулам в коллекциях математических документов. Указаны основные идеи, подходы и уже полученные результаты по разработке семантических технологий управления математическими знаниями, в том числе, подход к построению рекомендательных систем на основе онтологий математического знания и метод автоматизации процесса первичной обработки научной статьи, использующей TеX-нотацию.

Охарактеризована проблема построения системы анализа и оценки информационного и социального воздействия публикуемого научного контента на его пользователей. Проведено сопоставление традиционных (библиометрических и наукометрических) и альтернативных показателей такой оценки. Описан мировой опыт использования информетрических сервисов на сайтах научных журналов. Обсуждены варианты реализации этих подходов в рамках цифровой инфраструктуры электронного научного журнала.

Ключевые слова: издательские системы, современные модели публикации и распространения научных знаний, информационное общество, электронный научный журнал, информационные системы управления научными изданиями и публикациями, интеграция электронных ресурсов.

Семантический анализ документов в системе управления цифровыми научными коллекциями

Шамиль Махмутович Хайдаров

61-85

Аннотация: Предложены методы семантического анализа документов в системе управления цифровыми научными коллекциями, в том числе электронными научными журналами. Рассмотрены методы обработки документов, содержащих математические формулы, а также способы конвертации этих документов из формата OpenXML в формат TeX. Разработан алгоритм поиска по формулам в коллекциях математических документов, хранящихся в формате OpenXML. Алгоритм реализован в виде онлайн-сервиса на платформе science.tatarstan.

Ключевые слова: семантический анализ, издательские системы.

Электронные библиотеки в Вычислительном центре Российской академии наук – основные разработки

Владимир Алексеевич Серебряков

534-566

Аннотация: Рассмотрены основные проекты, которые были реализованы в Вычислительном центре им. А.А. Дородницына Российской академии наук (ВЦ РАН) за последние 20 лет, т. е. с 1998 года. Одним из первых был реализован пилотный проект «Интегрированной системы информационных ресурсов (ИСИР) РАН». Успешное завершение этого проекта позволило развернуть работы по интеграции разнородных научных информационных ресурсов в общеакадемическую научную информационную систему. Важным этапом был проект создания Единого Научного Информационного Пространства (ЕНИП) РАН. Этот проект основывался на подсистеме «Научный институт РАН», созданной в ВЦ РАН и Центре научных телекоммуникаций (ЦНТК) РАН. Учитывая важность формирования цифровых библиотек, Российская академия наук приняла в 2006 году целевую научную программу «Создание ЦБ «Научное наследие России»», в соответствии с которой была реализована цифровая библиотека. Созданный портал «ГеоМета» – это стандартизированная и децентрализованная среда управления пространственной информацией, разработанная для доступа к базам геоданных, картографическим продуктам и связанным с ними метаданным из различных источников, облегчающая обмен пространственной информацией между организациями и ее совместное использование посредством интернета. В настоящее время основное направление работ – цифровая персональная семантическая библиотека LibMena. Основная задача этой системы заключается в предоставлении пользователю унифицированного представления для возможности автоматизированного извлечения интересующей его информации по определенной предметной области.

Ключевые слова: предметная область, научная предметная область, научная информация, научные знания, обобщенное представление научной предметной области, таксономии, тезаурусы, глобальные онтологии, поисковые системы, организация научных знаний, цифровые библиотеки.

Методика сравнения программных решений распознавания текстов научных публикаций по качеству извлечения метаданных

Илия Игоревич Кузнецов, Олег Пантелеевич Новиков, Дмитрий Юрьевич Ильин

654-680

Аннотация:

Метаданные научных публикаций используются для построения каталогов, определения цитируемости публикаций и решения других задач. Автоматизация извлечения метаданных из PDF-файлов позволяет ускорить выполнение обозначенных задач, а от качества извлеченных данных зависит возможность их дальнейшего использования. Проанализированы существующие программные решения, в итоге отобраны три: GROBID, CERMINE, ScientificPdfParser. Предложена методика сравнения этих программных решений распознавания текстов научных публикаций по качеству извлечения метаданных. На основе методики проведен эксперимент по извлечению четырех типов метаданных (название, аннотация, дата публикации, имена авторов). Для сравнения программных решений использован набор из 112457 публикаций с разбиением на 23 предметные области, сформированный на основе данных Semantic Scholar. Приведен пример выбора эффективного программного решения извлечения метаданных в условиях заданных приоритетов для предметных областей и типов метаданных с использованием взвешенной суммы. Определено, что для приведенного примера CERMINE показывает эффективность на 10,5% выше, чем GROBID, и на 9,6% выше, чем ScientificPdfParser.

Ключевые слова: распознавание текста, научные публикации, метаданные, качество извлечения данных, методика.

Сервис-ориентированная информационная система научного журнала «Электронные библиотеки»

Дмитрий Юрьевич Ахметов, Александр Михайлович Елизаров, Евгений Константинович Липачёв

2-39

Аннотация:

Описаны современные модели публикации и распространения научных знаний, а также различные подходы к организация персонального информационного пространства ученого. Охарактеризованы современные информационные системы управления научными изданиями и сервисы, определяющие их функциональность. На основе технологии расширения функционала открытой системы Open Journal Systems созданы программные модули, обеспечивающие автоматизацию ряда редакционных процессов электронного научного журнала. Представлена архитектура универсальной платформы управления электронными научными журналами и подробно описана платформа управления электронным научным журналом «Электронные библиотеки».

Ключевые слова: издательские системы, современные модели публикации и распространения научных знаний, информационное общество, персональное информационное пространство ученого, электронный научный журнал, сервис-ориентированная информационная система, информационные сист.

Построение онтологии предметной области на основе логической модели данных

Александр Михайлович Гусенков, Наиль Раисович Бухараев, Евгений Васильевич Биряльцев

390-417

Аннотация: Представлена технология автоматизированного построения онтологии предметной области на основе информации, извлекаемой из комментариев реляционных баз данных ПАО «Татнефть». Технология основана на построении конвертора (компилятора), транслирующего логическую модель данных Epicentre Petrotechnical Open Software Corporation (POSC), представленную в виде ER-диаграмм и набора описаний на объектно-ориентированном языке EXPRESS, в язык описания онтологий OWL, рекомендованный консорциумом W3C. Описаны основные синтаксические и семантические аспекты преобразования.

Ключевые слова: онтология предметной области, реляционные базы данных, POSC, OWL.

Извлечение данных из сканированных документов со сходной структурой

Рустем Дамирович Саитгареев, Булат Рифатович Гиниятуллин, Владислав Юрьевич Топоров, Артур Александрович Атнагулов, Фарид Радикович Аглямов

667-688

Аннотация:

На текущий момент времени значительная часть передаваемых и хранимых данных не структурирована. Количество неструктурированных данных растет большими темпами каждый год, несмотря на то, что по таким данным трудно производить поиск, к ним нельзя совершать запросы и в целом их обработка не автоматизирована. В то же время наблюдается развитие систем электронного документооборота.

Настоящая работа предлагает инструмент для извлечения данных из фотографий бумажных документов, принимая во внимание их структуру и разметку. Представлены результаты разных испытанных подходов, включая нейронные сети и алгоритмический метод, а также проведен анализ полученных результатов.

Ключевые слова: нейронные сети, машинное обучение, извлечение структуры, извлечение структуры документов, OCR , неструктурированные данные , распознавание текста.

Базовые сервисы фабрики метаданных цифровой математической библиотеки Lobachevskii-DML

336-381

Аннотация: Решен ряд задач, связанных с построением фабрики метаданных цифровой математической библиотеки Lobachevskii-DML. Под фабрикой метаданных понимается система взаимосвязанных программных инструментов, направленных на создание, обработку, хранение и управление метаданными объектов цифровых библиотек и позволяющих интегрировать создаваемые электронные коллекции в агрегирующие цифровые научные библиотеки. С целью выбора оптимальных таких программных инструментов из существующих и их модернизации: обсуждены особенности представления метаданных документов различных электронных коллекций, связанные как с применяемыми форматами, так и с изменениями состава и полноты набора метаданных в течение всего времени издания соответствующего научного журнала;представлены и охарактеризованы программные инструменты управления научным контентом и методы организации автоматизированной интеграции репозиториев математических документов с другими информационными системами;обсуждена такая важная функция фабрики метаданных цифровой библиотеки, как нормализация метаданных в соответствии с форматами других агрегирующих библиотек.В результате разработки фабрики метаданных цифровой математической библиотеки Lobachevskii-DML предложена система сервисов автоматизированного формирования метаданных электронных математических коллекций; разработан xml-язык представления метаданных, основанный на Journal Archiving and Interchange Tag Suite (NISO JATS); созданы программные инструменты нормализации метаданных электронных коллекций научных документов в форматах, разработанных международными организациями – агрегаторами ресурсов по математике и Computer Science; разработан алгоритм приведения метаданных к формату oai_dc и генерации структуры архивов для импорта в цифровое хранилище DSpace; предложены и реализованы методы интеграции электронных математических коллекций Казанского университета в отечественные и зарубежные цифровые математические библиотеки.

Ключевые слова: цифровые библиотеки, цифровая математическая библиотека, формирование метаданных, извлечение метаданных, нормализация метаданных, фабрика метаданных, NISO JATS, семантические связи, Lobachevskii-DML.

Извлечение знаний из Wikidata для формирования метаданных документов электронных математических коллекций

Полина Олеговна Гафурова, Александр Михайлович Елизаров, Евгений Константинович Липачёв

1023-1059

Аннотация:

Представлены методы создания цифровых математических коллекций, включающих неструктурированные наборы документов. Эти наборы содержат материалы сборников научных конференций, а также статьи из архивов математических журналов «доцифрового» периода.

Формирование обязательного набора метаданных названных документов произведено с помощью программных инструментов фабрики метаданных цифровой математической библиотеки Lobachevskii DML. Для уточнения и пополнения наборов метаданных документов цифровых коллекций использованы методы извлечения знаний из Wikidata.

Разработана система SPARQL-запросов для поиска в Wikidata информации о документах электронных коллекций и их авторах. Обозначен набор сущностей Wikidata, определяющих признаки поиска, а также последующую фильтрацию полученных результатов.

Предложены методы уточнения и дополнения библиографических ссылок, приведенных в статьях. При формировании метаданных документов ретро-коллекций произведен поиск в Wikidata сведений о годах жизни авторов статей, а также URL веб-страниц с информацией о статьях и их авторах. Приведены результаты формирования нескольких новых электронных коллекций цифровой библиотеки Lobachevskii-DML.

Ключевые слова: Wikidata, метаданные, фабрика метаданных, цифровая математическая коллекция, цифровая математическая ретро коллекция, цифровые математические библиотеки, Lobachevskii-DML.

Извлечение заголовков из PDF-документов научной тематики

Дмитрий Сергеевич Филиппов

392-411

Аннотация:

Актуальность представленного исследования обусловлена бедностью существующих подходов к извлечению заголовков из PDF-документов, предложенных в более ранних исследованиях, которые используют либо машинное обучение, либо простые эвристики. Цель настоящего исследования – предоставить более проработанные подходы к общей задаче извлечения заголовка документа и предложить лучший алгоритм выделения его из документов научной тематики. Основная методика, использованная нами при выборе решения, – рассмотреть, как можно большее количество различных ситуаций относительно форматирования заголовка, возникающих в разных документах, и предложить решение для каждой из них, а затем обобщить их в полноценный подход. Результаты выбранного подхода показали его эффективность по сравнению с методами других исследователей, если в нашем распоряжении находятся документы с различными вариациями оформления, структурной организации и форматирования. Данное исследование показало, что глубокое исследование задачи – перспективный путь для разработки лучших решений и инструментов. Статья будет полезна исследователям и разработчикам, которые часто встречаются с проблемой извлечения заголовков как одной из подзадач анализа документов.

Ключевые слова: Pdf processing, title extraction, header extraction, strategy based approach, title heuristic, structural analysis, style information, text analysis, document analysis, information extraction, анализ текстов, автоматическая обработка документов.

Семантическое сходство в задаче аспектно-эмоционального анализа

Евгений Вячеславович Котельников, Павел Дмитриевич Блинов

120-137

Аннотация:

Исследуется проблема аспектно-эмоционального анализа текста. По сравнению с общим анализом тональности такой вариант является более сложным по причине наличия ряда сопутствующих подзадач, таких, как выделение аспектных терминов, определение тональности по отношению к этим терминам и аспектным категориям. Однако решение данной проблемы значительно расширяет возможности систем автоматического анализа неструктурированного текста.

Приведен обзор предыдущих работ в области аспектно-эмоционального анализа, описаны обучающие и тестовые данные семинара SentiRuEval. Для задачи извлечения аспектных терминов использовано векторное пространство распределенных представлений слов. Тональность аспектных терминов определяется на основе функций совместной информации и семантического сходства. Приведены сравнительные результаты на тестовых данных и заключительные выводы.

Ключевые слова: аспектно-эмоциональный анализ текста, взаимная информация, распределённые представления слов, машинное обучение, SentiRuEval.

Интеллектуальный поиск сложных объектов в массивах больших данных

Александр Михайлович Гусенков

40-76

Аннотация: Предложен подход к интеллектуальному поиску сложных объектов в различных типах структурно размеченных текстов, который может быть применен для обработки Больших данных (Big Data). Исследуются два вида представления информационных объектов: реляционные базы данных (РБД), которые структурно размечены своими схемами, и полнотекстовые естественнонаучные документы, содержащие математические выражения (формулы). Для таких полнотекстовых документов предлагается дополнительная автоматизированная разметка для организации поиска формул. В обоих случаях источником информации для построения онтологии и, в дальнейшем, организации поиска являются тексты на естественном языке, которые относятся к слабоструктурированным данным. Для РБД это комментарии к наименованиям таблиц и их атрибутов, а для естественнонаучных документов (статей, монографий и т. д.) – текстовое содержимое размеченных документов.

Ключевые слова: большие данные, семантический поиск, слабоструктурированные данные, онтологии, реляционные базы данных, естественнонаучные тексты, разметка математических выражений.

Аналитический обзор методов разрешения морфологической многозначности

Рамиль Раисович Гатауллин

98-114

Аннотация:

Проанализированы основные методы разрешения морфологической многозначности применительно к татарскому языку. Описано текущее состояние работ и приведены основные результаты по данному направлению, сделаны выводы о применимости методов разрешения с оценкой их точности.

Ключевые слова: разрешение морфологической многозначности, контекстные методы, статистико-вероятностные методы, татарский язык.

Извлечение аспектов товаров или услуг из отзывов потребителей с использованием модели условных случайных полей

Юлия Владимировна Рубцова, Сергей Андреевич Кошельников

203-221

Аннотация: Описана система, принимавшая участие в соревновании SentiRuEval-2015 по автоматическому извлечению аспектов из отзывов и оценке этих аспектов по тональности. В основе разработанной системы лежит алгоритм условных случайных полей (CRF), она использовалась в решении двух подзадач и тестировалась на двух предметных областях: рестораны и автомобили. Для обеих задач и обеих предметных областей показаны высокие показатели метрики полноты. Это означает, что система может вполне успешно находить аспектные термины. Вместе с тем, полученный низкий показатель точности свидетельствует о том, что система принимает за аспектные достаточно много терминов, которые аспектными не являются. В целом же система показала сравнительно хорошие результаты по сравнению с другими участниками соревнования.

Ключевые слова: извлечение знаний, извлечение аспектов, CRF.

Международная виртуальная обсерватория: десять лет спустя

О.Ю. Малков, О.Б. Длужневская, О.С. Бартунов, И.Ю. Золотухин

Аннотация: Международная виртуальная обсерватория представляет собой реализацию концепции электронной науки в астрономии. Это мощная виртуальная среда, предназначенная для увеличения возможностей астрономических исследований и научного выхода данных. Виртуальная обсерватория интегрирует в единую среду гигантские астрономические архивы и базы данных, распределенные по всему миру, а также инструменты анализа данных и вычислительный сервис, используя при этом набор однородных стандартов и технологий. Международная виртуальная обсерватория объединяет все значительные национальные и международные проекты по созданию виртуальных обсерваторий, основная цель которых – объединить существующие архивы наземных и космических инструментов и обеспечить исследователям и общественности удобный доступ к ним. Эта задача представляется весьма значительной не только из-за колоссального объема астрономических данных, но и их спектрального разнообразия (от рентгена до радио). Каждый спектральный диапазон предоставляет свою, уникальную информацию о небесном объекте или явлении; при этом требуется специализированная экспертиза для правильной интерпретации. Вся эта информация также интегрируется в Международной виртуальной обсерватории и позволяет синтезировать данные, чтобы использовать их в конкретных научных приложениях.

Ключевые слова: virtual observatory, e-science, astronomical data.

Цифровой геологический репозиторий и информация о стратиграфическом возрасте (на примере DSpace)

Михаил Иванович Патук, Вера Викторовна Наумова

465-473

Аннотация:

Описан новый подход, связанный с извлечением терминов относительного геологического возраста из метаданных научных геологических публикаций. На основе разработанных и адаптированных подходов и технологических решений реализован комплекс макросов, реализующий функции поиска, извлечения и добавления новых метаданных к научным публикациям.

Ключевые слова: информационные технологии, науки о Земле, репозиторий, научные публикации, стратиграфический возраст.

1 - 17 из 17 результатов