• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Нормализация текста, распознанного при помощи технологии оптического распознавания символов, с использованием легковесных LLM

Владислав Константинович Вершинин, Иван Владимирович Ходненко, Сергей Владимирович Иванов
1036-1056
Аннотация:

Несмотря на значительный прогресс, технологии оптического распознавания символов (OCR) для исторических газет по-прежнему допускают 5–10% ошибок на уровне символов. В работе представлена полностью автоматизированная система нормализации пост-OCR, объединяющая легкие языковые модели (LLM) объемом 7–8 млрд параметров, обученные по инструкциям и квантизованные до 4 бит (INT4), с небольшим набором регулярных выражений. На наборе данных BLN600 (600 страниц британских газет XIX в.) лучшая модель YandexGPT-5-Instruct Q4 снижает Character Error Rate (CER) с 8.4% до 4.0% (–52.5%) и Word Error Rate (WER) с 20.2% до 6.5% (–67.8%), повышая при этом семантическое сходство до 0.962. Система работает на потребительском оборудовании (RTX-4060 Ti, 8 ГБ VRAM) со скоростью около 35 секунд на страницу и не требует дополнительного обучения или параллельных данных. Полученные результаты показывают, что компактные INT4-LLM являются практичной альтернативой крупным моделям для постобработки OCR исторических документов.

Ключевые слова: оптическое распознавание символов, пост-OCR-коррекция, исторические газеты, большие языковые модели, квантизация, INT4, конвейер нормализации, ошибка на уровне символов, семантическое сходство, регулярные выражения, YandexGPT-5, легкие модели, обработка естественного языка, цифровые гуманитарные науки, оцифровка документов.

От сканированных изображений к базе знаний. Модель и стратегия научных исследований

Дэвид Бирман, Дженнифер Трант
Аннотация: В следующем десятилетии печатное наследие мира будет оцифровано. Если национальные правительства будут играть в этом процессе активную роль, то он сможет принести значительные выгоды для развития человечества путем демократизации доступа к различным печатным материалам. Предпосылками успеха являются всеобъемлющие программы оцифровки, которые делают общедоступными изображения страниц, а также позволяют комбинировать алгоритмы оптического распознавания текстов (OCR) с декодированием содержания, заложенного в типографских традициях, представляя слова в контексте их функций в документах – в заглавиях, ссылках, подписях к иллюстрациям и т.д.
Связывание сканированных страниц с библиографическими метаданными и использование оптического распознавания текстов – распространенный метод получения дополнительной информации при сканировании книг. Но для извлечения полезного знания, содержащегося в типографских традициях (печать и представление страницы) требуются дальнейшие исследования, чтобы их можно было использовать при декодировании электронных версий печатных книг. В данной работе исследуются некоторые вопросы кодирования информации, заключенной в печатных традициях, и то, как получающиеся в итоге базы знаний и семантический анализ могут использоваться для получения обогащенного культурного контента. Рекомендуемые национальные стратегии могут превратить электронные версии печатных текстов во взаимосвязанные базы знаний и предоставить для всех доступ к печатному наследию, сохраняя его разнообразие.

Поиск слов в рукописном тексте на основе штриховой сегментации

Иван Дмитриевич Морозов, Леонид Моисеевич Местецкий
1435-1453
Аннотация:

Рукописные архивные документы составляют фундаментальную часть культурного наследия человечества, однако их анализ остается трудоемкой задачей для профессиональных исследователей-историков, филологов и лингвистов. В отличие от коммерческих приложений систем OCR (Optical Character Recognition, оптического распознавания символов), работа с историческими рукописями требует принципиально иного подхода из-за чрезвычайного многообразия почерков, наличия правок и деградации материалов.


Предложен метод поиска в рукописных текстах, основанный на штриховой сегментации. Вместо полного распознавания текста, часто недостижимого для исторических документов, метод позволяет эффективно отвечать на поисковые запросы исследователей. Ключевая идея заключается в декомпозиции текста на элементарные штрихи, формировании семантических векторных представлений с помощью контрастного обучения, последующей кластеризации и классификации для создания адаптивного словаря почерка.


Экспериментально показано, что поиск сравнением кортежей редуцированных последовательностей наиболее информативных штрихов по расстоянию Левенштейна обеспечивает достаточное качество для рассматриваемой задачи. Метод демонстрирует устойчивость к индивидуальным особенностям почерка и вариациям написания, что особенно важно для работы с авторскими архивами и историческими документами.


Предложенный подход открывает новые возможности для ускорения научных исследований в гуманитарной сфере, позволяя сократить время поиска нужной информации с недель до минут, что качественно меняет возможности исследовательской работы с большими архивами рукописных документов.

Ключевые слова: рукописный текст, поиск, штриховый анализ, сегментация, векторное представление, контрастное обучение, кластеризация.
1 - 3 из 3 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2025 Казанский (Приволжский) федеральный университет; Институт развития информационного общества