• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Cемантическое аннотирование математических формул в PDF-документах

Ольга Авенировна Невзорова, Константин Сергеевич Николаев
616-639
Аннотация:

Дан обзор существующих решений по семантическому анализу математических документов, а также описан метод автоматического семантического анализа документов, представленных в формате PDF. Разработанный метод позволяет выделять математические формулы внутри документа, анализировать их структуру, выполнять поиск локальных переменных формулы и их определений в документе, а также связывать переменные формулы и понятия из онтологии. Преимуществом разработанного метода перед другими существующими является независимость от разметки исходного PDF-документа, что расширяет область применения метода. Приведены оценки полноты, точности и F-меры для алгоритмов поиска переменных и связывания локальных переменных с формулами. Полученная семантическая разметка документа позволяет создавать коллекции документов, пригодных для сервиса семантического поиска формул, который является одним из сервисов цифровой библиотеки Lobachevskii-DML.

Ключевые слова: семантический анализ, PDF, обработка документов, научные журналы, Lobachevskii-DML.

Извлечение заголовков из PDF-документов научной тематики

Дмитрий Сергеевич Филиппов
392-411
Аннотация:

Актуальность представленного исследования обусловлена бедностью существующих подходов к извлечению заголовков из PDF-документов, предложенных в более ранних исследованиях, которые используют либо машинное обучение, либо простые эвристики. Цель настоящего исследования – предоставить более проработанные подходы к общей задаче извлечения заголовка документа и предложить лучший алгоритм выделения его из документов научной тематики. Основная методика, использованная нами при выборе решения, – рассмотреть, как можно большее количество различных ситуаций относительно форматирования заголовка, возникающих в разных документах, и предложить решение для каждой из них, а затем обобщить их в полноценный подход. Результаты выбранного подхода показали его эффективность по сравнению с методами других исследователей, если в нашем распоряжении находятся документы с различными вариациями оформления, структурной организации и форматирования. Данное исследование показало, что глубокое исследование задачи – перспективный путь для разработки лучших решений и инструментов. Статья будет полезна исследователям и разработчикам, которые часто встречаются с проблемой извлечения заголовков как одной из подзадач анализа документов.

Ключевые слова: Pdf processing, title extraction, header extraction, strategy based approach, title heuristic, structural analysis, style information, text analysis, document analysis, information extraction, анализ текстов, автоматическая обработка документов.

Подход к созданию HTML-версии научной статьи из рукописи в формате MS Word для издательства с малым бюджетом

Римма Юрьевна Скорнякова
1064–1089
Аннотация:

Наиболее распространенным подходом к созданию HTML-версии журнальной статьи среди научных издательств является предварительное создание XML-версии статьи в соответствии с NISO стандартом Journal Article Tag Suite (JATS) с дальнейшим автоматическим преобразованием в форматы HTML и PDF. Однако получение XML-версии статьи из рукописи в формате .docx текстового процессора MS Word, часто используемого авторами, при наличии в ней большого числа сложных формул и таблиц является непростой задачей. Имеющиеся программные средства либо не справляются с ней в полном объеме, либо обходятся дорого и не доступны для малых издательств с ограниченным бюджетом.


В настоящей работе предложен подход к созданию HTML-версии журнальной статьи из рукописи в формате .docx, содержащей формулы в формате MathType, который не требует от издательства значительных финансовых и временных затрат, и описан реализованный на данный момент прототип лежащего в основе этого подхода конвертера научных статей из формата .docx в форматы HTML и JATS XML, применимый для препринтов ИПМ им. М.В. Келдыша.

Ключевые слова: HTML-версия научной статьи, XML-версия научной статьи, JATS XML, преобразование научных статей из формата .docx в html.

Методы и инструменты, используемые при подготовке публикаций научных статей в формате HTML

Римма Юрьевна Скорнякова
252–302
Аннотация:

Наряду с традиционной формой электронного представления полных текстов научных статей – форматом PDF – в последние годы все большее распространение получает формат HTML, обладающий для онлайн-публикаций рядом преимуществ за счет имеющихся в нем средств для лучшей структуризации материала, вставки мультимедийного контента и реализации разного рода интерактивных и динамических возможностей. В связи с этим становится весьма актуальной задача получения HTML-версии научной статьи из исходного формата материала, присланного автором. В настоящей работе рассмотрены различные подходы к подготовке HTML-версий полных текстов научных статей, применяемые в издательствах, и описаны используемые при этом программные инструменты. Основное внимание уделено инструментам, применяемым для исходных материалов в формате Word. Изложены также основы стандарта JATS XML, широко применяемого при подготовке онлайн-публикаций журнальных статей.

Ключевые слова: HTML-версия научной статьи, XML-версия научной статьи, стандарт обмена научными статьями, JATS, преобразование форматов научных статей.

Использование микроразметок для добавления в контент веб-страницы данных внешних ресурсов

Евгений Львович Китаев, Римма Юрьевна Скорнякова
494-513
Аннотация: В семантических разметках Всемирной паутины накоплено большое число данных, и их количество продолжает расти. Однако потенциал этих данных реализуется, на наш взгляд, не в полной мере. Данные, заключенные в семантических разметках, или микроразметках, широко используются поисковыми системами, отчасти социальными сетями, использование же этих данных разработчиками приложений, как правило, основано на приведении данных к стандарту RDF и выполнении SPARQL-запросов, что требует хорошего знания этого языка и умения программировать. В настоящей работе предложено использовать имеющиеся в Сети семантические разметки для автоматического включения их содержимого в контент других веб-страниц и описан инструмент для реализации такого включения, не требующий от разработчика веб-страницы владения какими-либо языками программирования помимо широко известных HTML и CSS. Инструмент не требует установки, работу выполняют подключаемые стартовые скрипты. В настоящий момент инструмент поддерживает семантические данные, заключенные в популярных типах разметок «микроданные» и JSON-LD, в тегах HTML-документов и свойствах документов Word и PDF.
Ключевые слова: семантическая паутина, семантические технологии, семантическая разметка, микроразметка, микроданные, JSON-LD, веб-разработка, веб-технологии.

Семантический анализ документов в системе управления цифровыми научными коллекциями

Шамиль Махмутович Хайдаров
61-85
Аннотация: Предложены методы семантического анализа документов в системе управления цифровыми научными коллекциями, в том числе электронными научными журналами. Рассмотрены методы обработки документов, содержащих математические формулы, а также способы конвертации этих документов из формата OpenXML в формат TeX. Разработан алгоритм поиска по формулам в коллекциях математических документов, хранящихся в формате OpenXML. Алгоритм реализован в виде онлайн-сервиса на платформе science.tatarstan.
Ключевые слова: семантический анализ, издательские системы.
1 - 6 из 6 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2025 Казанский (Приволжский) федеральный университет; Институт развития информационного общества