Main Navigation
Main Content
Sidebar

Электронные библиотеки

Главная
О нас
Текущий выпуск
Архивы
Регистрация
Вход
Поиск

Издается с 1998 года

ISSN 1562-5419

16+

Language

Русский
English

Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Извлечение заголовков из PDF-документов научной тематики

Дмитрий Сергеевич Филиппов

392-411

Аннотация:

Актуальность представленного исследования обусловлена бедностью существующих подходов к извлечению заголовков из PDF-документов, предложенных в более ранних исследованиях, которые используют либо машинное обучение, либо простые эвристики. Цель настоящего исследования – предоставить более проработанные подходы к общей задаче извлечения заголовка документа и предложить лучший алгоритм выделения его из документов научной тематики. Основная методика, использованная нами при выборе решения, – рассмотреть, как можно большее количество различных ситуаций относительно форматирования заголовка, возникающих в разных документах, и предложить решение для каждой из них, а затем обобщить их в полноценный подход. Результаты выбранного подхода показали его эффективность по сравнению с методами других исследователей, если в нашем распоряжении находятся документы с различными вариациями оформления, структурной организации и форматирования. Данное исследование показало, что глубокое исследование задачи – перспективный путь для разработки лучших решений и инструментов. Статья будет полезна исследователям и разработчикам, которые часто встречаются с проблемой извлечения заголовков как одной из подзадач анализа документов.

Ключевые слова: Pdf processing, title extraction, header extraction, strategy based approach, title heuristic, structural analysis, style information, text analysis, document analysis, information extraction, анализ текстов, автоматическая обработка документов.

1 - 1 из 1 результатов

Информация

Для читателей
Для авторов
Для библиотек

Отправить материал

Текущий выпуск

Электронные библиотеки

ISSN 1562-5419

Информация

О журнале
Цели и задачи
Тематика
Руководство для авторов
Отправка материалов
Заявление о конфиденциальности
Контакты
eLIBRARY.RU
dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал