Электронные библиотеки https://rdl-journal.ru/ <div id="journalDescription"> <p><strong>Дорогой посетитель!</strong></p> <p>Вы находитесь на сайте электронного научного журнала «Электронные библиотеки», посвященного оперативному отражению новых результатов теории и практики использования в России и за рубежом электронных библиотек – распределенных информационных систем, позволяющих обрабатывать, хранить, распространять, анализировать и организовывать поиск в разнообразных коллекциях электронных документов (текст, графика, аудио, видео и др.) через глобальные сети передачи данных. Журнал нацелен на формирование российского сообщества учёных, развивающих названное научное направление, и является в настоящее время единственным российским изданием, последовательно и систематически освещающим наиболее актуальные вопросы, связанные с развитием технологий электронных библиотек, которые в настоящее время становятся всё более существенными для совершенствования стандартов науки, экономики, образования, здравоохранения и качества жизни вообще. Научные электронные библиотеки играют важную роль в реализации активно поддерживаемых научным сообществом инициатив открытого доступа к результатам исследований, формировании открытой науки и глобальных репозиториев представления знаний и данных. Материалы журнала направлены на формирование российского сообщества ученых, экспертов и практиков, целенаправленно занимающимися вопросами использования технологий электронных библиотек для социально-экономического развития.</p> <p>Аудитория журнала включает широкий круг специалистов в сфере создания и использования информационно-коммуникационных технологий; ученых и исследователей; работников сфер образования и культуры; частных лиц, интересующихся проблемами развития современного информационного общества. Материалы, публикуемые в журнале, проходят строгую процедуру рецензирования и экспертного отбора.</p> </div> ru-RU <p class="text-justify">Представляя статьи для публикации в журнале «Электронные библиотеки», авторы автоматически дают согласие предоставить ограниченную лицензию на использование материалов Казанскому (Приволжскому) федеральному университету (КФУ) (разумеется, лишь в том случае, если статья будет принята к публикации). Это означает, что КФУ имеет право опубликовать статью в ближайшем выпуске журнала (на веб-сайте или в печатной форме), а также переиздавать эту статью на архивных компакт-дисках журнала или включить в ту или иную информационную систему или базу данных, производимую КФУ.</p> <p class="text-justify">Все авторские материалы размещены в журнале «Электронные библиотеки» с ведома авторов. В случае, если у кого-либо из авторов есть возражения против публикации его материалов на данном сайте, материал может быть снят при условии уведомления редакции журнала в письменной форме.</p> <p class="text-justify">Документы, изданные в журнале «Электронные библиотеки», защищены законодательством об авторских правах, и все авторские права сохраняются за авторами. Авторы самостоятельно следят за соблюдением своих прав на воспроизводство или перевод их работ, опубликованных в журнале. Если материал, опубликованный в журнале «Электронные библиотеки», с разрешения автора переиздается другим издателем или переводится на другой язык, то ссылка на оригинальную публикацию обязательна.</p> <p class="text-justify">Передавая статьи для опубликования в журнале «Электронные библиотеки», авторы должны принимать в расчет, что публикации в интернете, с одной стороны, предоставляют уникальные возможности доступа к их материалам, но, с другой, являются новой формой обмена информацией в глобальном информационном обществе, где авторы и издатели пока не всегда обеспечены защитой от неправомочного копирования или иного использования материалов, защищенных авторским правом.</p> <p class="text-justify">При использовании материалов из журнала обязательна ссылка на URL: http://rdl-journal.ru. Любые изменения, дополнения или редактирования авторского текста недопустимы. Копирование отдельных фрагментов статей из журнала разрешается для научных исследований, персонального использования, коммерческого использования до тех пор, пока есть ссылка на оригинальную статью.</p> <p class="text-justify">Запросы на право переиздания или использования любых материалов, опубликованных в журнале «Электронные библиотеки», следует направлять главному редактору Елизарову А.М. по адресу: amelizarov@gmail.com</p> <p class="text-justify">Издатели журнала «Электронные библиотеки» не несут ответственности за точки зрения, излагаемые в публикуемых авторских статьях.</p> <p class="text-justify">Предлагаем авторам статей загрузить с этой страницы, подписать и выслать в адрес издателя журнала по электронной почте <a href="https://rdl-journal.ru/files/docs/ru-copyright-101443.docx" target="_blank" rel="noopener">скан Авторского договора о передаче неисключительных прав на использование произведения</a>.</p> ljmeditor@gmail.com (Редакция журнала «Электронные Библиотеки») ljmeditor@gmail.com (Редакция журнала) Thu, 18 Dec 2025 00:00:00 +0300 OJS 3.2.0.3 http://blogs.law.harvard.edu/tech/rss 60 Детекция галлюцинаций на основе внутренних состояний больших языковых моделей https://rdl-journal.ru/article/view/977 <p>В последние годы большие языковые модели (Large Language Models, LLM) достигли значительных успехов в области обработки естественного языка и стали ключевым инструментом для решения широкого спектра прикладных и исследовательских задач. Однако с ростом их масштабов и возможностей все более острой становится проблема галлюцинаций – генерации ложной, недостоверной или несуществующей информации, представленной в достоверной форме. В связи с этим вопросы анализа природы галлюцинаций и разработки методов их выявления приобретают особую научную и практическую значимость.</p> <p>В работе изучен феномен галлюцинаций в больших языковых моделях, рассмотрены их существующая классификация и возможные причины. На базе модели Flan-T5 также исследованы различия внутренних состоянии модели при генерации галлюцинаций и верных ответов. На основе этих расхождений представлены два способа детектирования галлюцинаций: с помощью карт внимания и скрытых состояний модели. Эти методы протестированы на данных из бенчмарков HaluEval и Shroom 2024 в задачах суммаризации, ответов на вопросы, перефразирования, машинного перевода и генерации определений. Кроме того, исследована переносимость обученных детекторов между различными типами галлюцинаций, что позволило оценить универсальность предложенных методов для различных типов задач.</p> Тимур Рустемович Айсин, Татьяна Вячеславовна Шамардина Copyright (c) 2025 Тимур Рустемович Айсин, Татьяна Вячеславовна Шамардина https://creativecommons.org/licenses/by/4.0 https://rdl-journal.ru/article/view/977 Thu, 18 Dec 2025 00:00:00 +0300 Формирование структурированных представлений научных журналов для интеграции в граф знаний и семантического поиска https://rdl-journal.ru/article/view/978 <p>Работа посвящена проблеме развития библиотеки научных предметных областей SciLibRu, как продолжения семантического описания научных трудов проекта LibMeta. В основе этой библиотеки лежит концептуальная модель данных, структура и семантика которой сформированы на принципах онтологического моделирования. Такой подход обеспечивает строгое описание предметной области, формализацию взаимосвязей между сущностями и возможность дальнейшего автоматизированного анализа данных. Целью настоящего исследования были разработка и экспериментальное применение методов структуризации содержимого научных журналов в формате LaTeX для их интеграции в онтологию библиотеки и обеспечения семантического поиска.</p> <p>Предложен алгоритм трансляции в формат XML данных, представленных множеством файлов, для интеграции в онтологию библиотеки. Реализован модуль векторного поиска, основанный на вычислении эмбеддингов с использованием языковых моделей. Выявлены закономерности распределения эмбеддингов и факторы, влияющие на точность ранжирования результатов поиска. Проведено тестирование двух названых компонентов.</p> <p>Разработанный метод составляет основу для автоматического включения содержимого научных журналов в граф знаний SciLibRu и создания обучающих корпусов для языковых моделей, ограниченных рамками научных предметных областей. Полученные результаты способствуют развитию систем навигации по графу знаний журналов, а также рекомендательных механизмов и инструментов интеллектуального поиска по русскоязычным научным текстам.</p> Ольга Муратовна Атаева, Михаил Геннадьевич Кобук Copyright (c) 2025 Ольга Муратовна Атаева, Михаил Геннадьевич Кобук https://creativecommons.org/licenses/by/4.0 https://rdl-journal.ru/article/view/978 Thu, 18 Dec 2025 00:00:00 +0300 Библиотека научных предметных областей SciLibRu https://rdl-journal.ru/article/view/979 <p>Работа посвящена проблеме интеграции данных для представления научных предметных областей на основе их семантического описания в цифровой библиотеке SciLibRu. В качестве модели данных использованы онтология и граф знаний библиотеки LibMeta. Наполнение библиотеки SciLibRu осуществляется путем добавления данных научных журналов. Показано, как реализованы этапы анализа слабоструктурированных научных публикаций для их встраивания в онтологию библиотеки. При прохождении всех этапов предобработки данных формируется датасет, который может быть использован в обучении языковых моделей для запросов в русскоязычных научных предметных областях.</p> <p>Приложение работы заключается в создании рекомендательных систем для работы с научными русскоязычными журналами.</p> Ольга Муратовна Атаева, Наталия Павловна Тучкова, Кирилл Борисович Теймуразов, Айдин Абдышов, Михаил Геннадьевич Кобук Copyright (c) 2025 Ольга Муратовна Атаева, Наталия Павловна Тучкова, Кирилл Борисович Теймуразов, Айдин Абдышов, Михаил Геннадьевич Кобук https://creativecommons.org/licenses/by/4.0 https://rdl-journal.ru/article/view/979 Thu, 18 Dec 2025 00:00:00 +0300 Инструмент для оперативной диагностики памяти нейросетевых архитектур языковых моделей https://rdl-journal.ru/article/view/980 <p>Большие языковые модели (Large Language Models, LLM) прошли путь от простых N-граммных систем до современных универсальных архитектур, однако ключевым ограничением остается квадратичная сложность механизма самовнимания по длине входной последовательности. Это существенно увеличивает потребление памяти и вычислительных ресурсов, а с появлением задач, требующих рекордно длинных контекстов, создает необходимость разработки новых архитектурных решений. Поскольку для исследования предлагаемой архитектуры требуется длительное и дорогостоящее обучение полновесной сети, необходимо разработать инструмент, который позволял бы быстро дать предварительную оценку архитектуре с точки зрения внутренней памяти.</p> <p>В настоящей работе предложен метод количественной оценки внутренней памяти нейросетевых архитектур на основе синтетических тестов, не требующих больших корпусов данных. Под внутренней памятью понимается объем информации, который модель способна воспроизвести без обращения к исходным входам.</p> <p>Для верификации подхода разработан программный комплекс, апробированный на архитектурах GPT-2 и Mamba. Использованы задачи копирования, инверсии и извлечения значения по ключу. Проведенное сравнение по точности предсказаний, распределению ошибок и вычислительным затратам позволяет оперативно оценивать эффективность и перспективность архитектур LLM.</p> Павел Андреевич Гавриков, Азамат Комилжон угли Усманов, Дмитрий Реваев, Сергей Николаевич Бузыканов Copyright (c) 2025 Павел Андреевич Гавриков, Азамат Комилжон угли Усманов, Дмитрий Реваев, Сергей Николаевич Бузыканов https://creativecommons.org/licenses/by/4.0 https://rdl-journal.ru/article/view/980 Thu, 18 Dec 2025 00:00:00 +0300 Система тестирования контроллеров, основанная на распознавании текста на экране https://rdl-journal.ru/article/view/981 <p>Описано решение задачи тестирования контроллеров на основе чтения информации с их экрана. Для этого разработана программно-аппаратная система, состоящая из камеры и программных модулей, реализующих необходимые алгоритмы и методы: модуля предобработки изображения; модуля определения типа меню; модуля обработки символов шрифта; модуль чтения текста, в том числе, написанного различными шрифтами; собственно модуля тестирования. Система реализована для контроллеров определенного типа с монохромным дисплеем 128 х 64 точек. Все методы реализованы на языке Python с использованием популярных библиотек. Система внедрена в эксплуатацию и на данный момент осуществляет автоматизацию нескольких наиболее трудоемких тестов. Поддерживается расширение их набора в виде плагинов.</p> Александр Александрович Докукин Copyright (c) 2025 Александр Александрович Докукин https://creativecommons.org/licenses/by/4.0 https://rdl-journal.ru/article/view/981 Thu, 18 Dec 2025 00:00:00 +0300 Пост-коррекция слабой расшифровки большими языковыми моделями в итерационном процессе распознавания рукописей https://rdl-journal.ru/article/view/982 <p>Рассмотрена задача ускорения построения точной редакторской разметки рукописных архивных текстов в рамках инкрементного цикла обучения на основе слабой расшифровки. В отличие от ранее опубликованных результатов, основное внимание уделено интеграции автоматической посткоррекции слабой расшифровки с помощью больших языковых моделей (Large Language Models, LLM). Предложен и реализован протокол применения LLM на уровне строк в режиме обучения на нескольких примерах с тщательно сконструированными промптами и контролем формата вывода (сохранение дореформенной орфографии, защита имен и числительных, запрет на изменение структуры строк). Эксперименты проведены на корпусе дневников А. В. Сухово-Кобылина. В качестве базовой модели распознавания использована строчная версия модели Vertical Attention Network. Результаты показали, что LLM-коррекция на примере сервиса ChatGPT-4o заметно улучшает читабельность слабой разметки и существенно снижает процент ошибок в словах (в нашем опыте – порядка −12 процентных пунктов), при этом не внося ухудшения в проценте ошибок в буквах. Другой исследуемый сервис – DeepSeek-R1 – показал менее стабильное поведение. Рассмотрены практические настройки промптов, ограничения (контекстные лимиты, риск «галлюцинаций») и даны рекомендации по безопасной интеграции LLM-коррекции в итерационный пайплайн разметки с целью сокращения трудозатрат эксперта-асессора и ускорения оцифровки исторических архивов.</p> Валерий Павлович Зыков, Леонид Моисеевич Местецкий Copyright (c) 2025 Валерий Павлович Зыков, Леонид Моисеевич Местецкий https://creativecommons.org/licenses/by/4.0 https://rdl-journal.ru/article/view/982 Thu, 18 Dec 2025 00:00:00 +0300 Некоторые подходы к повышению точности прогнозирования с использованием ансамблевых методов https://rdl-journal.ru/article/view/983 <p>Представлены результаты экспериментального исследования эффективности использования сверхслучайных деревьев в моделях, основанных на градиентном бустинге, а также в новом ансамблевом методе, в котором лес генерируется, исходя из условия повышенной внутренней дивергенции. сследована эффективность сверхслучайных деревьев при использовании расширенных наборов признаков с включением новых признаков, вычисляемых как расстояния Идо набора описаний опорных объектов из обучающей выборки. Показано, что использование сверхслучайных деревьев в моделях градиентного бустинга и дивергентного леса позволяет улучшить обобщающую способность, а также, что к еще большему росту обобщающей способности приводит использование расширенных наборов признаков.</p> Синьюэ Ма, Олег Валентинович Сенько Copyright (c) 2025 Синьюэ Ма, Олег Валентинович Сенько https://creativecommons.org/licenses/by/4.0 https://rdl-journal.ru/article/view/983 Thu, 18 Dec 2025 00:00:00 +0300 Поиск слов в рукописном тексте на основе штриховой сегментации https://rdl-journal.ru/article/view/984 <p>Рукописные архивные документы составляют фундаментальную часть культурного наследия человечества, однако их анализ остается трудоемкой задачей для профессиональных исследователей-историков, филологов и лингвистов. В отличие от коммерческих приложений систем OCR (Optical Character Recognition, оптического распознавания символов), работа с историческими рукописями требует принципиально иного подхода из-за чрезвычайного многообразия почерков, наличия правок и деградации материалов.</p> <p>Предложен метод поиска в рукописных текстах, основанный на штриховой сегментации. Вместо полного распознавания текста, часто недостижимого для исторических документов, метод позволяет эффективно отвечать на поисковые запросы исследователей. Ключевая идея заключается в декомпозиции текста на элементарные штрихи, формировании семантических векторных представлений с помощью контрастного обучения, последующей кластеризации и классификации для создания адаптивного словаря почерка.</p> <p>Экспериментально показано, что поиск сравнением кортежей редуцированных последовательностей наиболее информативных штрихов по расстоянию Левенштейна обеспечивает достаточное качество для рассматриваемой задачи. Метод демонстрирует устойчивость к индивидуальным особенностям почерка и вариациям написания, что особенно важно для работы с авторскими архивами и историческими документами.</p> <p>Предложенный подход открывает новые возможности для ускорения научных исследований в гуманитарной сфере, позволяя сократить время поиска нужной информации с недель до минут, что качественно меняет возможности исследовательской работы с большими архивами рукописных документов.</p> Иван Дмитриевич Морозов, Леонид Моисеевич Местецкий Copyright (c) 2025 Иван Дмитриевич Морозов, Леонид Моисеевич Местецкий https://creativecommons.org/licenses/by/4.0 https://rdl-journal.ru/article/view/984 Thu, 18 Dec 2025 00:00:00 +0300 Атрибуция архивных рукописных писем с использованием сиамских нейронных сетей https://rdl-journal.ru/article/view/985 <p>Предложен метод автоматической атрибуции архивных рукописных писем на основе сиамской нейронной сети, решающий ключевую проблему цифровой гуманитаристики – установление авторства исторических документов. Актуальность исследования обусловлена массовой оцифровкой архивов XVII–XIX вв., атрибуция которых затруднена из-за неполных исходных сведений об авторах.</p> <p>Метод адаптирован к работе с реальным корпусом текстов и учитывает характерные для архивов проблемы: некачественные оцифровки, значительную вариативность почерка и выраженный дисбаланс классов (от 1 до 50 и более образцов на автора). Применение сиамской архитектуры позволяет получать дискриминативные векторные представления, эмбеддинги, на основе которых выполняется не только классификация документов известных авторов, но и эффективно выявляются рукописи, не принадлежащие ни одному из них. Это сужает круг кандидатов для последующей экспертной проверки.</p> <p>Представлен алгоритм предобработки данных и проведено сравнительное исследование двух подходов к анализу текста: на уровне фрагментов изображения (300 × 300 пикселей) и уровне отдельных строк. Разработанный инструмент предлагает архивным работникам и филологам эффективное решение для предварительной сортировки и атрибуции крупных массивов рукописных документов.</p> Наталия Михайловна Пронина Copyright (c) 2025 Наталия Михайловна Пронина https://creativecommons.org/licenses/by/4.0 https://rdl-journal.ru/article/view/985 Thu, 18 Dec 2025 00:00:00 +0300 Автоматические и полуавтоматические методы построения графа знаний предметной области и расширения онтологии https://rdl-journal.ru/article/view/986 <p>Рассмотрен цикл построения графа знаний и расширения онтологии для специальной предметной области, описывающей процесс управления потоками данных в службах информационной поддержки. Предложена методика формирования корпуса данных для наполнения онтологии с автоматической псевдоразметкой, включающей специальные категории для фиксации ранее не представленных классов и отношений. Обучена специализированная модель извлечения именованных сущностей на корпусе данных объемом 3 млн токенов с 92 метками. Результаты были использованы для интеграции извлеченных фактов, что увеличило граф знаний до 0.98 млн триплетов, при этом коэффициент расширения графа (отношение общего числа фактов к явным триплетам) увеличился с 2.65 до 3.52 при сохранении логической согласованности. Наборы токенов с одинаковыми метками были преобразованы в устойчивые семантические множества, что позволило полуавтоматически расширить онтологию. В онтологию добавлены 12 новых классов, которые были извлечены из неструктурированных текстовых данных. Показан прикладной пример запросов и дальнейшей аналитики.</p> Андрей Петрович Халов, Ольга Муратовна Атаева Copyright (c) 2025 Андрей Петрович Халов, Ольга Муратовна Атаева https://creativecommons.org/licenses/by/4.0 https://rdl-journal.ru/article/view/986 Thu, 18 Dec 2025 00:00:00 +0300