• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Эволюция методов визуализации коллекций научных публикаций

Зинаида Владимировна Апанович
2-42
Аннотация: Методы визуализации информации давно зарекомендовали себя как инструмент, позволяющий понимать данные большого объема. Визуализация коллекций научных публикаций является частным случаем визуализации информации. В статье рассмотрены задачи, решаемые при помощи визуализации, модели и методы анализа текстовой информации, а также новые подходы к визуализации документов. Особое внимание уделено тому, каким образом методы визуализации связаны с методами анализа коллекций научных публикаций.
Ключевые слова: визуализация коллекций документов, анализ текстов, алгоритмы визуализации текстов и метаданных, LDA, NMF, word2vec.

Cемантическое аннотирование математических формул в PDF-документах

Ольга Авенировна Невзорова, Константин Сергеевич Николаев
616-639
Аннотация:

Дан обзор существующих решений по семантическому анализу математических документов, а также описан метод автоматического семантического анализа документов, представленных в формате PDF. Разработанный метод позволяет выделять математические формулы внутри документа, анализировать их структуру, выполнять поиск локальных переменных формулы и их определений в документе, а также связывать переменные формулы и понятия из онтологии. Преимуществом разработанного метода перед другими существующими является независимость от разметки исходного PDF-документа, что расширяет область применения метода. Приведены оценки полноты, точности и F-меры для алгоритмов поиска переменных и связывания локальных переменных с формулами. Полученная семантическая разметка документа позволяет создавать коллекции документов, пригодных для сервиса семантического поиска формул, который является одним из сервисов цифровой библиотеки Lobachevskii-DML.

Ключевые слова: семантический анализ, PDF, обработка документов, научные журналы, Lobachevskii-DML.

Извлечение заголовков из PDF-документов научной тематики

Дмитрий Сергеевич Филиппов
392-411
Аннотация:

Актуальность представленного исследования обусловлена бедностью существующих подходов к извлечению заголовков из PDF-документов, предложенных в более ранних исследованиях, которые используют либо машинное обучение, либо простые эвристики. Цель настоящего исследования – предоставить более проработанные подходы к общей задаче извлечения заголовка документа и предложить лучший алгоритм выделения его из документов научной тематики. Основная методика, использованная нами при выборе решения, – рассмотреть, как можно большее количество различных ситуаций относительно форматирования заголовка, возникающих в разных документах, и предложить решение для каждой из них, а затем обобщить их в полноценный подход. Результаты выбранного подхода показали его эффективность по сравнению с методами других исследователей, если в нашем распоряжении находятся документы с различными вариациями оформления, структурной организации и форматирования. Данное исследование показало, что глубокое исследование задачи – перспективный путь для разработки лучших решений и инструментов. Статья будет полезна исследователям и разработчикам, которые часто встречаются с проблемой извлечения заголовков как одной из подзадач анализа документов.

Ключевые слова: Pdf processing, title extraction, header extraction, strategy based approach, title heuristic, structural analysis, style information, text analysis, document analysis, information extraction, анализ текстов, автоматическая обработка документов.

Обнаружение заимствований в научных документах на опыте Российской государственной библиотеки

Нина Владимировна Авдеева, Татьяна Александровна Блинова, Игорь Александрович Груздев, Вера Михайловна Ледовская, Галина Андреевна Лобанова, Ирина Валерьевна Сусь
285-297
Аннотация: Статья посвящена опыту Российской государственной библиотеки (РГБ) по проверке научных документов на наличие некорректных заимствований. Наличие актуальной электронной коллекции научных трудов, использование специализированного программного обеспечения и экспертного анализа рассматриваются как необходимые условия для реализации подобных проверок. В статье описаны их основные результаты, а также наиболее распространенные недостатки, выявленные в научных документах.
Ключевые слова: научный текст, некорректные заимствования, электронная коллекция, экспертный анализ, диссертация, Российская государственная библиотека.

Цифровая инфраструктура электронного научного журнала: автоматизация редакционно-издательских процессов и система сервисов

Миляуша Салахутдиновна Галявиева, Александр Михайлович Елизаров, Евгений Константинович Липачёв
408-465
Аннотация:

Описаны современные модели и средства публикации и распространения научных знаний. Охарактеризованы современные информационные системы управления научными изданиями и сервисы, определяющие их функциональность.

Введено понятие цифровой инфраструктуры электронного научного журнала как комплекса, который объединяет программную платформу, реализующую основные рабочие процессы управления электронным журналом, и информационные системы, которые обеспечивают функционирование как основных, так и дополнительных сервисов, учитывающих, в частности, специфику предметной области журнала.

Представлен подход к организации цифровой инфраструктуры электронного научного журнала на основе открытой программной системы Open Journal Systems (OJS). Предложены сервисы, расширяющие функциональные возможности этой системы и учитывающие специфику предметной области научных журналов. На основе технологии расширения функционала OJS созданы программные модули, обеспечивающие автоматизацию ряда редакционных процессов электронного научного журнала.

Представлена система сервисов автоматической обработки коллекций научных документов. Эти сервисы обеспечивают проверку соответствия документов коллекций принятым правилам формирования коллекций и преобразования документов в установленные форматы; структурный анализ документов и извлечение метаданных, а также их интеграцию в научное информационное пространство. Система сервисов позволяет автоматически выполнять набор операций, который не реализуем за практически приемлемое время при традиционной «ручной» обработке электронного контента, и предназначена для обработки больших коллекций научных документов.

Охарактеризованы алгоритмы автоматической стилевой валидации текстов на этапе регистрации статьи в информационной системе электронного научного журнала, автоматического подбора рецензентов, рассылки уведомлений и контроля сроков рецензирования.

Представлены методы обработки документов, содержащих математические формулы, в частности, алгоритм поиска по формулам в коллекциях математических документов. Указаны основные идеи, подходы и уже полученные результаты по разработке семантических технологий управления математическими знаниями, в том числе, подход к построению рекомендательных систем на основе онтологий математического знания и метод автоматизации процесса первичной обработки научной статьи, использующей TеX-нотацию.

Охарактеризована проблема построения системы анализа и оценки информационного и социального воздействия публикуемого научного контента на его пользователей. Проведено сопоставление традиционных (библиометрических и наукометрических) и альтернативных показателей такой оценки. Описан мировой опыт использования информетрических сервисов на сайтах научных журналов. Обсуждены варианты реализации этих подходов в рамках цифровой инфраструктуры электронного научного журнала.

Ключевые слова: издательские системы, современные модели публикации и распространения научных знаний, информационное общество, электронный научный журнал, информационные системы управления научными изданиями и публикациями, интеграция электронных ресурсов.

Учёт структуры документа в методе автоматического аннотирования математических понятий в образовательных текстах

Константин Сергеевич Николаев
558-577
Аннотация:

Обогащение образовательных текстов семантическим содержимым (в частности, дополнение документа гиперссылками на страницы сервиса, отображающего подробную информацию о понятиях, используемых в тексте) способствует повышению эффективности усвоения материала обучающимися. Существующие методы семантической разметки образовательных текстов не учитывают структурные особенности таких документов, что приводит к избыточному распознаванию понятий.


В статье описано развитие метода автоматического аннотирования математических понятий в образовательных математических текстах путем добавления функционала для учета структуры образовательного документа. Основное назначение метода заключается в обработке образовательных материалов курса дистанционного образования «Технология решения планиметрических задач». Соблюдение единого шаблона при создании страниц курса позволяет применить анализ веб-разметки страниц и ключевых слов, примененных создателями курса. Основной задачей в данном процессе является определение типа ячеек таблицы, в которых находятся текстовые фрагменты образовательных материалов. В соответствии с рекомендациями создателей курса, определения необходимо выделять в ячейках, содержащих постановку задачи, а также в тех блоках, где указаны входные данные задачи. Определение типа ячеек таблиц производится с помощью анализа их атрибутов и поиска ключевых слов в их содержимом. Такое ограничение распознаваемых фрагментов текста позволяет улучшить восприятие страниц курса учеником и повысить качество усвоения учебного материала.

Ключевые слова: семантический анализ, математическая онтология, дидактические отношения, математическое образование, разметка документа.

Семантический анализ документов в системе управления цифровыми научными коллекциями

Шамиль Махмутович Хайдаров
61-85
Аннотация: Предложены методы семантического анализа документов в системе управления цифровыми научными коллекциями, в том числе электронными научными журналами. Рассмотрены методы обработки документов, содержащих математические формулы, а также способы конвертации этих документов из формата OpenXML в формат TeX. Разработан алгоритм поиска по формулам в коллекциях математических документов, хранящихся в формате OpenXML. Алгоритм реализован в виде онлайн-сервиса на платформе science.tatarstan.
Ключевые слова: семантический анализ, издательские системы.

Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов

Олег Юрьевич Бахтеев, Маргарита Валерьевна Кузнецова, Алексей Владимирович Романов, Юрий Викторович Чехович
298-304
Аннотация: Работа посвящена описанию метода детектирования искусственных и ненаучных текстов в коллекции научных статей. Предлагаемый метод основан на лексическом и морфологическом анализе проверяемого документа, позволяющем оценить вероятность его принадлежности к классу научных документов. Эксперименты подтверждают возможность практического применения метода.
Ключевые слова: обработка естественного языка, классификация документов, анализ текстов, статистические языковые модели, детектирование искусственных текстов.
1 - 8 из 8 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2025 Казанский (Приволжский) федеральный университет; Институт развития информационного общества