• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Пост-коррекция слабой расшифровки большими языковыми моделями в итерационном процессе распознавания рукописей

Валерий Павлович Зыков, Леонид Моисеевич Местецкий
1385-1414
Аннотация:

Рассмотрена задача ускорения построения точной редакторской разметки рукописных архивных текстов в рамках инкрементного цикла обучения на основе слабой расшифровки. В отличие от ранее опубликованных результатов, основное внимание уделено интеграции автоматической посткоррекции слабой расшифровки с помощью больших языковых моделей (Large Language Models, LLM). Предложен и реализован протокол применения LLM на уровне строк в режиме обучения на нескольких примерах с тщательно сконструированными промптами и контролем формата вывода (сохранение дореформенной орфографии, защита имен и числительных, запрет на изменение структуры строк). Эксперименты проведены на корпусе дневников А. В. Сухово-Кобылина. В качестве базовой модели распознавания использована строчная версия модели Vertical Attention Network. Результаты показали, что LLM-коррекция на примере сервиса ChatGPT-4o заметно улучшает читабельность слабой разметки и существенно снижает процент ошибок в словах (в нашем опыте – порядка −12 процентных пунктов), при этом не внося ухудшения в проценте ошибок в буквах. Другой исследуемый сервис – DeepSeek-R1 – показал менее стабильное поведение. Рассмотрены практические настройки промптов, ограничения (контекстные лимиты, риск «галлюцинаций») и даны рекомендации по безопасной интеграции LLM-коррекции в итерационный пайплайн разметки с целью сокращения трудозатрат эксперта-асессора и ускорения оцифровки исторических архивов.

Ключевые слова: распознавание рукописного текста, слабая разметка, Vertical Attention Network (VAN), большие языковые модели (LLM), посткоррекция, итерационное дообучение.

Алгоритмический фреймворк для извлечения информационного ядра веб-страницы

Хамза Салем, Александр Сергеевич Тощев
931-942
Аннотация:

Представлен новый точный алгоритм MCE извлечения основного содержимого с новостных веб-сайтов. Предложенный алгоритм использует анализ структуры объектной модели документа (DOM) и метрики плотности контента
для идентификации и извлечения информационного ядра веб-страницы. Реализованный подход объединяет три ключевые особенности: максимальное количество прямых дочерних элементов с текстом, максимальное текстовое содержимое без дочерних элементов, содержащих текст, и ближайшее расположение
к средней глубине узла. Алгоритм продемонстрировал лучшую производительность по сравнению с существующими решениями, такими как Boilerpipe и Readability, достигая 99,96% точности, 99,69% полноты и 99,80% F1-меры на использованном комплексном наборе данных из 500 разнообразных веб-страниц. Языково-независимый дизайн делает алгоритм особенно эффективным для извлечения мультиязычного контента, включая языки со сложной структурой, такие, например, как арабский.

Ключевые слова: NLP, извлечение данных, языково-независимый алгоритм, RAG (Retrieval-Augmented Generation).

Анализ оптимизации программной системы на примере свободных автоматизированных библиотечно-информационных систем

Олег Иванович Васильев, Валентин Юрьевич Медведев
151-163
Аннотация:

Статья посвящена исследованию возможностей оптимизации работоспособности и повышения эффективности функционирования сложных многофункциональных программных систем на примере свободных автоматизированных библиотечно-информационных систем (далее – АБИС).


К 2023 году в мире накоплен ценный опыт создания и эксплуатации интегрированных АБИС различного масштаба и назначения, однако вопросы совершенствования их проектных решений остаются актуальными. В первую очередь это касается необходимости оптимизации структуры исходного программного кода с целью повышения его читаемости и поддерживаемости, снижения времени выполнения отдельных функциональных модулей, уменьшения объёма занимаемой оперативной памяти.


В рамках исследования был проведён сравнительный анализ исходных кодов нескольких действующих открытых АБИС, реализованных на различных языках программирования. Были изучены основные подходы к проектированию структуры кода, выявлены наиболее частотно используемые алгоритмы и паттерны. Для оценки степени оптимизированности исходного кода был разработан комплекс показателей, включающий оценку структуры, читаемости, модульности и других характеристик. На этой основе проведено сравнение отдельных фрагментов кода до и после применения известных техник рефакторинга.


В результате проведённой работы удалось выявить наиболее распространённые ошибки и недочёты в структуризации исходных кодов АБИС, определить основные направления их оптимизации. Получены данные о возможном снижении затрат на тестирование и техническую поддержку посредством улучшения качества исходных кодов.

Ключевые слова: исправление программного кода, оптимизация программной системы, рефакторинг, многоязыковая система, оценка качества программных систем, автоматизированные библиотечно-информационные системы, процесс разработки программного обеспечения.
1 - 3 из 3 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2026 Казанский (Приволжский) федеральный университет; Институт развития информационного общества