Редакторы-составители: В.С. Белобородов, А.Р. Гатиатуллин, Р.А. Гильмуллин, Л.Р. Гильмутдинова, А.К. Ковалёв, А.В. Кузнецов, О.В. Попова, Е.В. Тутубалина, А.Ф. Хасьянов, А.А. Шпильман

ОТ СОСТАВИТЕЛЕЙ

Настоящий тематический выпуск журнала «Электронные библиотеки» включает статьи, подготовленные на основе  докладов, представленных на Междисциплинарной научной конференции «ИИ-ЗАМАН». Конференция прошла 17 сентября 2025 года в рамках международного форума «Kazan Digital Week – 2025» и была посвящена фундаментальным и прикладным исследованиям в области искусственного интеллекта.

Основные направления конференции: компьютерное зрение, обработка естественного языка, воплощённый искусственный интеллект и робототехника, применение искусственного интеллекта в научных исследованиях.

Основная цель проведенной конференции — объединение специалистов, исследователей и студентов для обсуждения современных актуальных задач искусственного интеллекта, обмена результатами и опытом, а также содействие междисциплинарному научному диалогу. Организаторами конференции выступили Академия наук Республики Татарстан, Институт искусственного интеллекта AIRI и Университет Иннополис.

 

Опубликован: 04.12.2025

Интеллектуальный робот-химик: на пути к автономной лаборатории

Муса Шамильевич Адыгамов, Антон Олегович Голубь, Эмиль Ринатович Сайфуллин, Тимур Рустемович Гимадиев, Никита Юрьевич Серов
997-1014
Аннотация:

Представлена программно-аппаратная платформа, которая позволяет проводить химические синтезы в автоматическом режиме, включая приготовление реакционных смесей, их нагрев и перемешивание, а также отбор проб с разбавлением после синтеза и отправку на анализ методом высокоэффективной жидкостной хроматографии с последующей автоматической обработкой результатов. Для управления отдельными элементами роботизированной установки создана собственная библиотека ChemBot на языке Python, а для управления всей системой – клиентский веб-сервер; для просмотра состояния установки и хода выполнения синтезов разработан веб-интерфейс. Работа всей платформы по выполнению экспериментов протестирована при выполнении синтезов по альдольной конденсации, где варьировались соотношение реагентов, катализатор и его количество, температура и время синтеза. Написание собственного кода для контроля и управления всей системой стало важным шагом на пути интеграции роботизированной установки и искусственного интеллекта (ИИ), что в перспективе позволит осуществить переход к автономной лаборатории, когда предсказание целевой молекулы и ее синтеза, экспериментальное осуществление и анализ, а также, при необходимости, уточнение или изменение использованной модели будут осуществляться в автоматическом режиме, без вмешательства человека.

Проектирование динамической экспертной системы по анализу влияния климатических воздействий на малые и средние предприятия

Рустам Арифович Бурнашев, Ярослав Владиславович Сергеев
1015-1035
Аннотация:

Растущая нестабильность климата создает новые вызовы и риски для устойчивости малых и средних предприятий. В работе предложена архитектура прототипа динамической экспертной системы, интегрирующей несколько ключевых модулей: пользовательский интерфейс, базу знаний, серверное приложение и модуль динамического обновления данных с API-интерфейсами реального времени. Особенностью системы является применение аппарата Z⁺-чисел, реализованного на основе программной библиотеки scikit-fuzzy, что позволяет учитывать градуированную уверенность в оценках. Этот подход дает более обоснованные и адаптивные оценки рисков, чувствительные к изменению качества исходных данных. Интерактивная визуализация результатов реализована на основе картографической платформы OpenStreetMap. Приведены примеры агрегации экспертных оценок в формате Z-чисел, а также описана методика адаптации функций уверенности системы на основе исторических данных.

Нормализация текста, распознанного при помощи технологии оптического распознавания символов, с использованием легковесных LLM

Владислав Константинович Вершинин, Иван Владимирович Ходненко, Сергей Владимирович Иванов
1036-1056
Аннотация:

Несмотря на значительный прогресс, технологии оптического распознавания символов (OCR) для исторических газет по-прежнему допускают 5–10% ошибок на уровне символов. В работе представлена полностью автоматизированная система нормализации пост-OCR, объединяющая легкие языковые модели (LLM) объемом 7–8 млрд параметров, обученные по инструкциям и квантизованные до 4 бит (INT4), с небольшим набором регулярных выражений. На наборе данных BLN600 (600 страниц британских газет XIX в.) лучшая модель YandexGPT-5-Instruct Q4 снижает Character Error Rate (CER) с 8.4% до 4.0% (–52.5%) и Word Error Rate (WER) с 20.2% до 6.5% (–67.8%), повышая при этом семантическое сходство до 0.962. Система работает на потребительском оборудовании (RTX-4060 Ti, 8 ГБ VRAM) со скоростью около 35 секунд на страницу и не требует дополнительного обучения или параллельных данных. Полученные результаты показывают, что компактные INT4-LLM являются практичной альтернативой крупным моделям для постобработки OCR исторических документов.

Цифровое моделирование тематического поля изучения культурной конгруэнтности в психологическом контексте

Айсылу Мунавировна Ганиева
1057-1069
Аннотация:

В работе установлены ключевые темы в современных психологических исследованиях культурной конгруэнтности с использованием метода тематического цифрового моделирования массива научных публикаций.


Актуальность и значимость проведенного исследования обусловлены
ростом значимости культурной конгруэнтности в условиях цифровой трансформации общества, изменяющей способы социализации и взаимодействия. Современные технологии требуют переосмысления психологических механизмов адаптации индивида к культурной среде, особенно в детском и подростковом возрастах. Несмотря на активное изучение этого феномена, наблюдается очевидный недостаток исследований, посвященных культурной конгруэнтности взрослых. Применение цифрового моделирования и искусственного интеллекта позволяет систематизировать знания и выявить структуру тематического поля с высокой точностью. Полученные данные открывают перспективу для дальнейшего изучения культурной конгруэнтности в ходе онтогенеза.


Конструирование тематического поля исследований культурной конгруэнтности, основанный на анализе цифровых анналов, содержащих коллекцию научных публикаций по данной тематике (112 статей), был выполнен с использованием алгоритма тематического моделирования (topic modeling) на языке программирования Python и с применением цифровых платформ, включая инструменты на основе мультимодальных нейросетей (GigaChat, Qwen, DeepSeek). В результате проведенного анализа возрастных особенностей феномена культурной
конгруэнтности выделены четыре возрастные группы: дошкольники, младшие школьники, подростки и взрослые.

Автоматическое извлечение аргументативных отношений из текстов научной коммуникации

Юрий Алексеевич Загорулько, Елена Анатольевна Сидорова, Ирина Равильевна Ахмадеева
1070-1084
Аннотация:

Сложность задачи извлечения аргументативных структур связана с такими проблемами, как выделение аргументативных сегментов, прогнозирование дальних связей между неконтактными сегментами, обучение на данных, размеченных с низкой степенью согласованности между аннотаторами. В настоящей работе рассмотрен подход к извлечению аргументативных отношений из достаточно больших текстов, относящихся к области научной коммуникации. Проведен сравнительный анализ методов тонкой настройки с использованием предобученной языковой модели типа Longformer, позволяющей учитывать длинные контексты, и двух методов, позволяющих учитывать расхождения аннотаторов в разметке аргументов за счет использования так называемых мягких меток, полученных путем равномерного сглаживания меток и усреднения экспертных оценок. Эксперименты проводились на четырех наборах данных, содержащих положительные и отрицательные примеры пар утверждений (посылка, заключение) и различающихся способами сегментации и средним размером текста. Наилучшие результаты получены на модели с усреднением экспертных оценок. В то же время отмечено, что модель, использующая сглаженные метки, также повышает точность классификаторов, но ухудшает полноту.

Нейросимволический подход к дополненной генерации текста на основе автоматизированной индукции морфотактических правил

Марат Вильданович Исангулов, Александр Михайлович Елизаров, Айгиз Ражапович Кунафин, Айрат Рафизович Гатиатуллин, Николай Аркадиевич Прокопьев
1085-1102
Аннотация:

Представлен гибридный нейросимволический метод, который объединяет большую языковую модель (LLM) и конечный автомат (FST) для обеспечения морфологической корректности при генерации текста на агглютинативных языках.
Система автоматически извлекает правила из корпусных данных: для локальных примеров словоформ LLM формирует цепочки морфологического разбора, которые затем агрегируются и упорядочиваются в компактные описания правил морфотактики (LEXC) и выбора алломорфов (regex). На этапе генерации LLM и FST работают совместно: если токен не распознается автоматом, LLM извлекает из контекста пару «лемма + теги», а FST реализует корректную поверхностную форму. В качестве набора данных использован корпус художественной литературы (~1600 предложений). Для списка из 50 существительных извлечено 250 словоформ. По предложенному алгоритму LLM сгенерировала 110 контекстных regex-правил вместе с LEXC-морфотактикой, на основе чего был скомпилирован FST, распознавший 170/250 форм (~70%). В прикладном тесте машинного перевода на подкорпусе из 300 предложений интеграция данного FST в цикл LLM повысила качество с BLEU 16.14 / ChrF 45.13 до BLEU 25.71 / ChrF 50.87 без дообучения переводчика. Подход применим к иным частям речи и другим агглютинативным и малоресурсным языкам, где он может быть использован для наполнения словарных и грамматических ресурсов.

Оценка неопределенности в трансформерных цепях на основе принципа согласованности эффективной информации

Анатолий Анатольевич Красновский
1103-1119
Аннотация:

Механистическая интерпретируемость позволяет выявлять функциональные подграфы в больших языковых моделях (LLM), известные как трансформерные цепи (Transformer Circuits, TC), которые реализуют конкретные алгоритмы. Однако отсутствует формальный способ, позволяющий за один проход количественно оценить, когда активная цепь ведет себя согласованно и, следовательно, ее состояние может быть признано корректным. Опираясь на ранее предложенную автором пучково‑теоретическую формализацию причинной эмерджентности (Krasnovsky, 2025), мы специализируем ее для трансформерных цепей и вводим безразмерную однопроходную оценку согласованности эффективной информации (Effective Information Consistency Score, EICS). EICS сочетает нормализованную несогласованность пучка, вычисляемую из локальных якобианов и активаций, с гауссовским прокси EI для причинной эмерджентности на уровне цепи, полученным из того же состояния прямого прохода. Такая конструкция является прозрачной (white‑box), однопроходной и делает единицы измерения явными, так что оценка безразмерна. Представлены практические рекомендации по интерпретации оценки, учету вычислительных затрат (с быстрыми и точными режимами) и анализ простейшего примера для проверки на адекватность.

Абстрактивная суммаризация новостей внешней торговли на основе нового специализированного корпуса данных

Дарья Андреевна Лютова, Валентин Андреевич Малых
1120-1137
Аннотация:

Представлен TradeNewsSum — корпус для абстрактивной генерации аннотаций к новостям внешней торговли, охватывающий русско- и англоязычные публикации из профильных источников. Все рефераты подготовлены вручную по унифицированным правилам. Проведены эксперименты с дообучением трансформерных и seq2seq-моделей и автоматическую оценку по схеме LLM-as-a-judge. Наилучшие результаты показала LLaMA 3.1 в режиме инструкционного промптинга, продемонстрировав высокие значения по метрикам, включая фактологическую полноту.

Исследование квантования больших языковых моделей: оценка эффективности с акцентом на русскоязычные задачи

Дмитрий Романович Пойманов, Михаил Сергеевич Шутов
1138-1163
Аннотация:

Квантование стало ключевой техникой сжатия и ускорения больших языковых моделей (LLM). Несмотря на то, что исследования низкобитного квантования активно развиваются применительно к англоязычным LLM, его влияние на морфологически богатые и разнородные по ресурсам языки, включая русский, остается изученным значительно хуже. Поэтому требуются дополнительные исследования этого вопроса в связи с развитием высокоэффективных русскоязычных и многоязычных LLM.


Мы провели систематическое исследование квантования предобученных моделей в эффективные 2.0—4.25 бита на параметр для современных русскоязычных LLM различного масштаба от 4 до 32 млрд параметров (4 B и 32 B). Экспериментальная часть охватывает как стандартное равномерное квантование, так и специализированные низкобитные форматы. Полученные результаты выявили несколько ключевых тенденций: i) устойчивость русскоязычных LLM к квантованию варьируется в зависимости от архитектуры и размера модели; ii) 4-битное квантование демонстрирует высокую надежность, особенно при использовании продвинутых форматов; iii) 3-битное и 2-битное квантования оказались наиболее чувствительными к указанным калибровки. Полученные эмпирические данные демонстрируют необходимость учета домена модели при использовании различных методов квантования.

Сокрытие в смысле: семантическое кодирование для генеративно-текстовой стеганографии

Олег Юрьевич Рогов, Дмитрий Евгеньевич Инденбом, Дмитрий Сергеевич Корж, Дарья Валерьевна Пугачёва, Всеволод Александрович Воронов, Елена Викторовна Тутубалина
1165-1185
Аннотация:

В статье предложена новая система для генерации стеганографического текста, скрывающая двоичные сообщения в семантически связном естественном языке с помощью скрытого пространства, обусловливающего большие языковые модели (LLM). Секретные сообщения сначала кодируются в непрерывные векторы с помощью обученного отображения двоичного кода в скрытое пространство, которое используется для управления генерацией текста посредством донастройки префикса. В отличие от предыдущих методов стеганографии на уровне токенов или синтаксиса, наш метод позволяет избежать явной манипуляции словами и вместо этого работает полностью в скрытом семантическом пространстве, что обеспечивает более плавные и менее заметные результаты. На стороне получателя скрытое представление восстанавливается из сгенерированного текста и декодируется обратно в исходное сообщение.
В качестве ключевого теоретического вклада мы предоставляем гарантию надежности: если восстановленный скрытый вектор находится в пределах ограниченного расстояния от изначального, обеспечивается точное восстановление сообщения, причем граница определяется константой Липшица декодера и минимальным отступом логитов. Этот формальный результат предлагает принципиальный подход к компромиссу между надежностью и емкостью в скрытых стеганографических системах. Эмпирическая оценка как на синтетических данных, так и в практических предметных областях, таких как отзывы на Amazon, показывает, что наш метод достигает высокой точности восстановления сообщений (выше 91%), высокую плавность текста и конкурентоспособную емкость до 6 бит на элемент предложения, сохраняя при этом устойчивость к нейронному стегоанализу. Эти результаты демонстрируют, что генерация со скрытым условием предлагает безопасный и практичный путь для встраивания информации в современные LLM.

Условная генерация электрокардиограмм с помощью иерархических вариационных автокодировщиков

Иван Анатольевич Свиридов, Константин Сергеевич Егоров
1186-1206
Аннотация:

Сердечно-сосудистые заболевания являются одной из основных причин смертности. Автоматический анализ электрокардиограмм (ЭКГ) может существенно облегчить работу врачей, но его эффективность ограничена нехваткой и несбалансированностью данных. Создание синтетических ЭКГ помогает частично решить эти проблемы. Хотя чаще всего для этого применяются генеративно-состязательные сети (GAN), но последние исследования показали, что вариационные автокодировщики (VAE) могут обеспечивать сопоставимое качество.


В работе представлена модель cNVAE-ECG — модификация Nouveau VAE (NVAE), способная генерировать 12 отведений 10-секундных ЭКГ с различными патологиями. Используя компактную схему работы с каналами и встроенные представления классов для условной генерации, cNVAE-ECG улучшает результаты в задачах бинарной и multi-label классификации, обеспечивая прирост метрики AUROC до 2% по сравнению с моделями на основе GAN. Модель представлена в открытом доступе: https://github.com/univanxx/cNVAE_ECG.

Где находятся лучшие признаки? Послойный анализ слоев трансформера для эффективной классификации эндоскопических изображений

Ахмад Таха, Рустам А. Лукманов
1207-1229
Аннотация:

В поисках путей развития медицинского искусственного интеллекта показано, что предварительно обученный Vision Transformer с линейным классификатором может достигать высокой и конкурентоспособной производительности в классификации эндоскопических изображений. Представлен систематический послойный анализ, который выявляет источник наиболее важных признаков, оспаривая общепринятую эвристику использования только последнего слоя. Установлен отчетливый феномен «пика перед концом», когда поздне-промежуточный слой предлагает более обобщаемое представление для последующей медицинской задачи. На стандартных наборах данных Kvasir и HyperKvasir предложенный подход с малым количеством параметров не только получить достаточно высокую точность, но и значительно сокращает вычислительные затраты. Полученные работы могут быть рекомендованы в качестве практического руководства по эффективному использованию признаков общих базовых моделей в клинических условиях.

Ядро верифицируемой объяснимости: гибридная архитектура GD-ANFIS/SHAP для XAI 2.0 *

Юрий Владиславович Трофимов, Александр Дмитриевич Лебедев, Андрей Сергеевич Ильин, Алексей Николаевич Аверкин
1230-1252
Аннотация:

Предложена гибридная архитектура Explainable AI, совмещающая полностью дифференцируемую нейро-нечеткую модель GD-ANFIS и пост-хок метод SHAP. Интеграция выполнена с целью реализации принципов XAI 2.0, требующих одновременной прозрачности, проверяемости и адаптивности объяснений.


GD-ANFIS формирует человеческо-читаемые правила типа Такаги – Сугено, обеспечивая структурную интерпретируемость, тогда как SHAP вычисляет количественные вклады признаков по теории Шепли. Для объединения этих слоев разработан механизм компаративного аудита: он автоматически сопоставляет наборы ключевых признаков, проверяет совпадение направлений их влияния и анализирует согласованность между числовыми оценками SHAP и лингвистическими правилами GD-ANFIS. Такой двухконтурный контроль повышает доверие к выводам модели и позволяет оперативно выявлять потенциальные расхождения.


Эффективность подхода подтверждена экспериментами на четырех разнородных наборах данных. В медицинской задаче классификации Breast Cancer Wisconsin достигнута точность 0.982; в задаче глобального картирования просадок грунта — 0.89. В регрессионных тестах на Boston Housing и мониторинге качества поверхностных вод получены RMSE 2.30 и 2.36 соответственно при полном сохранении интерпретируемости. Во всех случаях пересечение топ-признаков в объяснениях двух методов составляло не менее 60%, что демонстрирует высокую согласованность структурных и числовых трактовок.


Предложенная архитектура формирует практическую основу для ответственного внедрения XAI 2.0 в критически важных областях — от медицины и экологии до геоинформационных систем и финансового сектора.

Искусственный интеллект в решении проблемы онкопрофилактики: ретроспективное исследование

Петр Александрович Филоненко, Владимир Николаевич Кох, Павел Дмитриевич Блинов
1253-1266
Аннотация:

Исследована возможность эффективного решения задачи популяционной онкопрофилактики с помощью методов искусственного интеллекта (ИИ), прогнозирующих риск злокачественных новообразований (ЗНО) на основе минимального набора данных из электронной медицинской карты (ЭМК) – кодов медицинских диагнозов и услуг. Для решения поставленной задачи рассмотрен широкий спектр современных подходов, включающих методы классического машинного обучения, анализа выживаемости, глубокого обучения и больших языковых моделей (LLM). Численные эксперименты показали, что наилучшей способностью ранжирования пациентов по уровню риска ЗНО обладает градиентный бустинг, использующий модели анализа выживаемости в качестве дополнительных предикторов, что позволяет учитывать как популяционные, так и индивидуальные факторы риска ЗНО. Из данных ЭМК были сконструированы предикторы, включающие демографические характеристики, паттерны обращений за медицинской помощью и клинические маркеры. Это решение было протестировано в ретроспективных экспериментах под контролем профильных врачей-онкологов. В ретроспективном эксперименте с участием более 1.9 млн пациентов установлено, что в группу риска попадает до 5.4 раза больше пациентов с ЗНО при том же уровне медицинских обследований. Предложенный метод представляет собой масштабируемое решение, использующее исключительно коды диагнозов и услуг, не требующее специализированной инфраструктуры и интегрируемое в процесс онконастороженности, что делает его применимым для решения задач популяционной онкопрофилактики.

Стилометрический анализ в задаче поиска заимствований текстов на татарском языке

Изида Зуфаровна Хаялеева, Михаил Михайлович Абрамский
1267-1278
Аннотация:

Рассмотрена возможность применения методов стилометрического анализа для поиска заимствований в текстах на татарском языке. Разработаны соответствующие инструменты, в которых использованы алгоритмы машинного обучения, включая кластеризацию (метод k-средних), классификацию (метод случайного леса, метод опорных векторов, наивный байесовский классификатор) и гибридный подход (модель FastText + логистическая регрессия). Особое внимание уделено адаптации лингвистических метрик для татарского языка.