Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Поиск слов в рукописном тексте на основе штриховой сегментации

Иван Дмитриевич Морозов, Леонид Моисеевич Местецкий

1435-1453

Аннотация:

Рукописные архивные документы составляют фундаментальную часть культурного наследия человечества, однако их анализ остается трудоемкой задачей для профессиональных исследователей-историков, филологов и лингвистов. В отличие от коммерческих приложений систем OCR (Optical Character Recognition, оптического распознавания символов), работа с историческими рукописями требует принципиально иного подхода из-за чрезвычайного многообразия почерков, наличия правок и деградации материалов.

Предложен метод поиска в рукописных текстах, основанный на штриховой сегментации. Вместо полного распознавания текста, часто недостижимого для исторических документов, метод позволяет эффективно отвечать на поисковые запросы исследователей. Ключевая идея заключается в декомпозиции текста на элементарные штрихи, формировании семантических векторных представлений с помощью контрастного обучения, последующей кластеризации и классификации для создания адаптивного словаря почерка.

Экспериментально показано, что поиск сравнением кортежей редуцированных последовательностей наиболее информативных штрихов по расстоянию Левенштейна обеспечивает достаточное качество для рассматриваемой задачи. Метод демонстрирует устойчивость к индивидуальным особенностям почерка и вариациям написания, что особенно важно для работы с авторскими архивами и историческими документами.

Предложенный подход открывает новые возможности для ускорения научных исследований в гуманитарной сфере, позволяя сократить время поиска нужной информации с недель до минут, что качественно меняет возможности исследовательской работы с большими архивами рукописных документов.

Ключевые слова: рукописный текст, поиск, штриховый анализ, сегментация, векторное представление, контрастное обучение, кластеризация.

Нормализация текста, распознанного при помощи технологии оптического распознавания символов, с использованием легковесных LLM

Владислав Константинович Вершинин, Иван Владимирович Ходненко, Сергей Владимирович Иванов

1036-1056

Аннотация:

Несмотря на значительный прогресс, технологии оптического распознавания символов (OCR) для исторических газет по-прежнему допускают 5–10% ошибок на уровне символов. В работе представлена полностью автоматизированная система нормализации пост-OCR, объединяющая легкие языковые модели (LLM) объемом 7–8 млрд параметров, обученные по инструкциям и квантизованные до 4 бит (INT4), с небольшим набором регулярных выражений. На наборе данных BLN600 (600 страниц британских газет XIX в.) лучшая модель YandexGPT-5-Instruct Q4 снижает Character Error Rate (CER) с 8.4% до 4.0% (–52.5%) и Word Error Rate (WER) с 20.2% до 6.5% (–67.8%), повышая при этом семантическое сходство до 0.962. Система работает на потребительском оборудовании (RTX-4060 Ti, 8 ГБ VRAM) со скоростью около 35 секунд на страницу и не требует дополнительного обучения или параллельных данных. Полученные результаты показывают, что компактные INT4-LLM являются практичной альтернативой крупным моделям для постобработки OCR исторических документов.

Ключевые слова: оптическое распознавание символов, пост-OCR-коррекция, исторические газеты, большие языковые модели, квантизация, INT4, конвейер нормализации, ошибка на уровне символов, семантическое сходство, регулярные выражения, YandexGPT-5, легкие модели, обработка естественного языка, цифровые гуманитарные науки, оцифровка документов.

Применение алгоритма Дугласа–Пеккера в вопросах онлайн-аутентификации инструментов удалённой работы при подготовке специалистов укрупнённой группы специальностей 10.00.00 «Информационная безопасность»

Антон Григорьевич Уймин, Владимир Сергеевич Греков

679-694

Аннотация:

В условиях перехода образовательных систем на дистанционное обучение, а также развития тренда на удалённую работу, возникла острая потребность в разработке надежных технологий биометрической идентификации и аутентификации для верификации исполнителей работ в режиме удаленной работы. Такие технологии позволяют обеспечить высокую степень защиты и удобство использования, что делает вопросы их разработки и оптимизации крайне важными.

Проблема заключается в необходимости повышения точности и эффективности систем распознавания движений манипулятора «мышь» без использования специализированных устройств в максимально короткий промежуток времени. Для ее решения требуется эффективная предобработка таких движений, чтобы упростить их траектории, сохранив при этом их ключевые особенности.

В статье предложено использование алгоритма Дугласа–Пеккера для предварительной обработки данных траекторий движений «мыши». Этот алгоритм позволяет значительно уменьшить количество точек в траекториях, упрощая их при сохранении основной формы движений. Данные с упрощенными траекториями затем используются для обучения нейронных сетей.

Экспериментальная часть работы показала, что применение алгоритма Дугласа–Пеккера позволяет сократить количество точек в траекториях на 60%, что приводит к увеличению точности распознавания движений с 70% до 82%. Такое упрощение данных способствует ускорению процесса обучения нейронных сетей и повышению их операционной эффективности.

Проведенное исследование подтвердило эффективность использования алгоритма Дугласа–Пеккера для предварительной обработки данных в задачах распознавания движений «мыши». Полученные результаты могут найти применение в разработке более интуитивно понятных и адаптивных пользовательских интерфейсов.

Предложены также направления для дальнейших исследований, включая оптимизацию параметров алгоритма для различных типов движений и исследование возможности его комбинирования с другими методами машинного обучения.

Ключевые слова: аутентификация, биометрическая идентификация, удалённая работа, дистанционное обучение, алгоритм Дугласа–Пеккера, предобработка данных, нейросеть, HID-устройство, траектория движений «мыши», оптимизация данных.

Программное средство оптимизации процессов видеопроизводства

Рустем Фаридович Давлетшин, Ирина Сергеевна Шахова

478-502

Аннотация:

Предложены программные механизмы, направленные на оптимизацию процессов видеопроизводства для авторов художественных видеоматериалов – материалов, предполагающих предварительную постановочную работу. Разработан механизм создания анимированных трехмерных планов съемки (раскадровок) с использованием дополненной реальности для позиционирования и анимации перемещения актеров. С целью преодоления ограничений операционной системы iOS, связанных с доступом к сенсорам, разработан механизм раздельного захвата аудио- и видеопотоков с датчиков устройства для проведения записи, а также их последующей синхронизации по временным меткам для сохранения в память устройства. Отслеживание соблюдения правил композиционного построения и анализ качества изображения на предмет расфокусировки камеры реализованы с использованием технологий компьютерного зрения. Также представлены механизмы работы со сценарием, включающие алгоритмы обработки текста для вывода на экран в виде субтитров, а также распознавания речи актеров и сравнения её с текстом сценария.

Ключевые слова: видеопроизводство, мобильное кино, дополненная реальность, раскадровка, видеозапись, автоматизация, программное решение.

Пост-коррекция слабой расшифровки большими языковыми моделями в итерационном процессе распознавания рукописей

Валерий Павлович Зыков, Леонид Моисеевич Местецкий

1385-1414

Аннотация:

Рассмотрена задача ускорения построения точной редакторской разметки рукописных архивных текстов в рамках инкрементного цикла обучения на основе слабой расшифровки. В отличие от ранее опубликованных результатов, основное внимание уделено интеграции автоматической посткоррекции слабой расшифровки с помощью больших языковых моделей (Large Language Models, LLM). Предложен и реализован протокол применения LLM на уровне строк в режиме обучения на нескольких примерах с тщательно сконструированными промптами и контролем формата вывода (сохранение дореформенной орфографии, защита имен и числительных, запрет на изменение структуры строк). Эксперименты проведены на корпусе дневников А. В. Сухово-Кобылина. В качестве базовой модели распознавания использована строчная версия модели Vertical Attention Network. Результаты показали, что LLM-коррекция на примере сервиса ChatGPT-4o заметно улучшает читабельность слабой разметки и существенно снижает процент ошибок в словах (в нашем опыте – порядка −12 процентных пунктов), при этом не внося ухудшения в проценте ошибок в буквах. Другой исследуемый сервис – DeepSeek-R1 – показал менее стабильное поведение. Рассмотрены практические настройки промптов, ограничения (контекстные лимиты, риск «галлюцинаций») и даны рекомендации по безопасной интеграции LLM-коррекции в итерационный пайплайн разметки с целью сокращения трудозатрат эксперта-асессора и ускорения оцифровки исторических архивов.

Ключевые слова: распознавание рукописного текста, слабая разметка, Vertical Attention Network (VAN), большие языковые модели (LLM), посткоррекция, итерационное дообучение.

Учёт структуры документа в методе автоматического аннотирования математических понятий в образовательных текстах

Константин Сергеевич Николаев

558-577

Аннотация:

Обогащение образовательных текстов семантическим содержимым (в частности, дополнение документа гиперссылками на страницы сервиса, отображающего подробную информацию о понятиях, используемых в тексте) способствует повышению эффективности усвоения материала обучающимися. Существующие методы семантической разметки образовательных текстов не учитывают структурные особенности таких документов, что приводит к избыточному распознаванию понятий.

В статье описано развитие метода автоматического аннотирования математических понятий в образовательных математических текстах путем добавления функционала для учета структуры образовательного документа. Основное назначение метода заключается в обработке образовательных материалов курса дистанционного образования «Технология решения планиметрических задач». Соблюдение единого шаблона при создании страниц курса позволяет применить анализ веб-разметки страниц и ключевых слов, примененных создателями курса. Основной задачей в данном процессе является определение типа ячеек таблицы, в которых находятся текстовые фрагменты образовательных материалов. В соответствии с рекомендациями создателей курса, определения необходимо выделять в ячейках, содержащих постановку задачи, а также в тех блоках, где указаны входные данные задачи. Определение типа ячеек таблиц производится с помощью анализа их атрибутов и поиска ключевых слов в их содержимом. Такое ограничение распознаваемых фрагментов текста позволяет улучшить восприятие страниц курса учеником и повысить качество усвоения учебного материала.

Ключевые слова: семантический анализ, математическая онтология, дидактические отношения, математическое образование, разметка документа.

Система тестирования контроллеров, основанная на распознавании текста на экране

Александр Александрович Докукин

1368-1384

Аннотация:

Описано решение задачи тестирования контроллеров на основе чтения информации с их экрана. Для этого разработана программно-аппаратная система, состоящая из камеры и программных модулей, реализующих необходимые алгоритмы и методы: модуля предобработки изображения; модуля определения типа меню; модуля обработки символов шрифта; модуль чтения текста, в том числе, написанного различными шрифтами; собственно модуля тестирования. Система реализована для контроллеров определенного типа с монохромным дисплеем 128 х 64 точек. Все методы реализованы на языке Python с использованием популярных библиотек. Система внедрена в эксплуатацию и на данный момент осуществляет автоматизацию нескольких наиболее трудоемких тестов. Поддерживается расширение их набора в виде плагинов.

Ключевые слова: компьютерное зрение, распознавание текста, тестирование контроллеров.

Автоматизация сортировки материалов по тексту сценария для видеомонтажа

Андрей Дмитриевич Неманов, Ирина Сергеевна Шахова

533-557

Аннотация:

Процесс видеомонтажа включает множество трудоемких операций по сортировке и подготовке материалов, что требует значительных временных затрат. В статье описана разработка программного решения для автоматизации этих процессов с использованием технологии машинного обучения. Основное внимание уделено созданию системы, способной классифицировать и сортировать медиафайлы по тексту сценария, тем самым повышая эффективность подготовки материалов к монтажу. Система включает модули распознавания речи, классификации аудио и видео, а также алгоритмы определения соответствия сценарию. Тестирование показало, что предложенная система правильно классифицирует медиафайлы в большинстве случаев, что позволяет существенно сократить время на черновой монтаж.

Ключевые слова: видеомонтаж, автоматизация, машинное обучение, распознавание речи, классификация аудио, классификация видео, coreml, параллельные вычисления, сценарий, soundex, tf-idf, косинусное сходство, обработка естественного языка.

Применение методов компьютерного зрения к распознаванию старотатарского текста

Искандер Айратович Валишин

448-477

Аннотация:

Разработан инструмент, распознающий строки, слова и арабские символы с отсканированного изображения. Рассмотрены возможности и перспективы применения инструмента в исследовательской деятельности. Приведены результаты экспериментов по проверке работоспособности инструмента на примере старотатарских оцифрованных произведений.

Ключевые слова: YOLO, распознавание арабских символов, нейронные сети, компьютерное зрение.

Методика сравнения программных решений распознавания текстов научных публикаций по качеству извлечения метаданных

Илия Игоревич Кузнецов, Олег Пантелеевич Новиков, Дмитрий Юрьевич Ильин

654-680

Аннотация:

Метаданные научных публикаций используются для построения каталогов, определения цитируемости публикаций и решения других задач. Автоматизация извлечения метаданных из PDF-файлов позволяет ускорить выполнение обозначенных задач, а от качества извлеченных данных зависит возможность их дальнейшего использования. Проанализированы существующие программные решения, в итоге отобраны три: GROBID, CERMINE, ScientificPdfParser. Предложена методика сравнения этих программных решений распознавания текстов научных публикаций по качеству извлечения метаданных. На основе методики проведен эксперимент по извлечению четырех типов метаданных (название, аннотация, дата публикации, имена авторов). Для сравнения программных решений использован набор из 112457 публикаций с разбиением на 23 предметные области, сформированный на основе данных Semantic Scholar. Приведен пример выбора эффективного программного решения извлечения метаданных в условиях заданных приоритетов для предметных областей и типов метаданных с использованием взвешенной суммы. Определено, что для приведенного примера CERMINE показывает эффективность на 10,5% выше, чем GROBID, и на 9,6% выше, чем ScientificPdfParser.

Ключевые слова: распознавание текста, научные публикации, метаданные, качество извлечения данных, методика.

1 - 10 из 10 результатов