• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Типы эмбеддингов и их применение в интеллектуальной академической генеалогии

Андреас Хачатурович Мариносян
240-261
Аннотация:

Рассмотрена проблема построения интерпретируемых векторных представлений научных текстов для задач интеллектуальной академической генеалогии. Предложена типология эмбеддингов, включающая три класса: статистические, выученные нейросетевые и структурированные символьные. Обоснована необходимость объединения достоинств нейросетевых (высокая семантическая точность) и символьных (интерпретируемость измерений) подходов. Для реализации такого гибридного подхода предложен алгоритм построения выученных символьных эмбеддингов путем регрессионного преобразования вектора внутреннего представления нейросетевой модели в интерпретируемый набор оценок.


Экспериментальная оценка алгоритма проведена на корпусе фрагментов авторефератов диссертаций по педагогическим наукам. Компактный трансформерный энкодер с регрессионной головой обучался воспроизводить тематические оценки, сгенерированные передовой генеративной языковой моделью. Сравнение шести режимов обучения (три типа регрессионной головы и два состояния энкодера) показало, что дообучение верхних слоев энкодера является ключевым фактором повышения качества. По результатам тестирования была выбрана наилучшая конфигурация, которая достигла коэффициента детерминации R² = 0.57 и точности определения трех наиболее релевантных концептов, равной 74%. Результаты подтверждают, что для определенного рода задач, в которых требуется формальное представление выходных данных, возможна аппроксимация поведения генеративной модели компактным энкодером с регрессионной головой при существенно меньших вычислительных затратах. В более широкой перспективе разработка алгоритмов построения выученных символьных эмбеддингов будет способствовать созданию такой модели формальной репрезентации научного знания, в которой конвергенция нейросетевых и символьных методов обеспечит как масштабируемость обработки научных текстов, так и интерпретируемость векторных представлений, кодирующих содержание.

Ключевые слова: эмбеддинги, академическая генеалогия, трансформерный энкодер, регрессионная голова, символьные эмбеддинги, тематический профиль, обработка естественного языка, интерпретируемость, большие языковые модели, наукометрия.

Анализ моделей векторных представлений слов в задаче разметки семантических ролей в русскоязычных текстах

Лейсан Маратовна Кадермятова, Елена Викторовна Тутубалина
1026-1043
Аннотация: Изучено влияние использования векторных представлений слов на качество установления семантических ролей в русскоязычных текстах. Задача установления семантических ролей в русскоязычных текстах получила широкое распространение после выхода на свет корпуса FrameBank. Были исследованы модели векторных представлений слов word2vec, fastText и ELMo (Embeddings from Language Models). Анализировались метрики качества микро- и макро-F1 как оценочные показатели результатов автоматической разметки актантов. Был проведен ряд экспериментов, демонстрирующих, что модели ELMo, основанные на токенах предикатно-аргументных конструкций, показывают больший прирост качества по сравнению со всеми остальными моделями, в том числе, в сопоставлении с моделями ELMo, обученными на леммах, как по величине микро-F1, так и по величине макро-F1.
Ключевые слова: машинное обучение, обработка естественного языка, векторные представления слов, семантические роли.

Увеличение робастности нейронных сетей за счет генерации векторных представлений, инвариантных к атрибутам

Марат Рушанович Газизов, Карен Альбертович Григорян
1142-1154
Аннотация:

Робастность модели к незначительным отклонениям в распределении исходных данных является важным критерием во многих задачах. Нейронные сети могут показывать высокую точность (accuracy) на обучающей выборке, но при этом качество на тестовой выборке может сильно падать из-за разного распределения данных, причем ситуация только усугубляется на уровне подгрупп внутри каждой категории.


В данной статье мы показываем, как робастность модели на уровне подгрупп может быть значительно улучшена с помощью подхода, основанного на доменной адаптации векторных представлений. Мы обнаружили, что применение состязательного подхода к ограничению векторных представлений дает существенный прирост метрики точности (accuracy) в сложной подгруппе по сравнению с предыдущими моделями. Метод протестирован на двух независимых наборах данных, точность в сложной подгруппе на наборе данных Waterbirds составляет 90.3 {y : waterbirds;a : landbackground}, а на наборе данных CelebA – 92.22 {y : blondhair;a : male}.

Ключевые слова: робастная классификация, классификация изображений, генеративно-состязатель сети, доменная адаптация.

Как эмбеддинги имен сущностей влияют на качество выравнивания сущностей

Даниил Иванович Гусев, Зинаида Владимировна Апанович
52-79
Аннотация:

Алгоритмы установления соответствия между сущностями осуществляют поиск эквивалентных сущностей в разноязычных графах знаний. Данная проблема возникает, как правило, при интеграции разноязычных графов знаний. В настоящее время решение этой проблемы становится весьма актуальным для практического решения проблем импортозамещения, например, чтобы найти информацию о лекарствах, выпускаемых в разных странах под разными названиями, или же решить проблему поиска эквивалентных запчастей.


В настоящее время известно несколько библиотек с открытым кодом, которые объединяют известные алгоритмы выравнивания сущностей, а также тестовые наборы данных для различных языков. В данной работе описан русско-английский набор данных для экспериментов с нескольким популярными алгоритмами выравнивания сущностей. Особое внимание уделено методам генерации векторных представлений для имен сущностей. В частности, рассмотрены комбинации различных методов генерации векторных представлений (эмбеддингов) имен сущностей с известными алгоритмами выравнивания сущностей. Таблицы с результатами экспериментов дополнены визуализациями. 

Ключевые слова: разноязычные графы знаний, идентификация сущностей, cross-lingual entity alignment, knowledge graphs, relational embeddings, name embeddings.

Мульти-таймфреймовые Drummond-патчи и JEPA-предобучение для краткосрочного прогноза розничных OHLC-рядов

Александр Семёнович Сизов, Юрий Алексеевич Халин, Артём Александрович Белых
351-367
Аннотация:

Предложен метод построения инвариантных к масштабу представлений временных рядов розничной выручки на базе трехбарной (по трем соседним периодам) геометрии Драммонда (DG), расширенной мульти-таймфреймовым контекстом (день, частичная календарная неделя и скользящая 7-дневка). На этих «патчах» выполнено self-supervised предобучение по схеме Joint-Embedding Predictive Architecture (JEPA) со спатио-темпоральным маскированием, после чего модель дообучена с выходными слоями, оценивающими неопределенность, для прогноза на следующий день и следующую неделю. Проанализированы свойства аффинной инвариантности признаков и идентифицируемости недельной фазы; эмпирически продемонстрировано улучшение по сравнению с сильными базовыми моделями на реальных данных.

Ключевые слова: геометрия Драммонда, Joint-Embedding Predictive Architecture (JEPA), временные ряды, Open-High-Low-Close (OHLC), розничная торговля, краткосрочный прогноз, самообучение.

Формирование структурированных представлений научных журналов для интеграции в граф знаний и семантического поиска

Ольга Муратовна Атаева, Михаил Геннадьевич Кобук
1306-1323
Аннотация:

Работа посвящена проблеме развития библиотеки научных предметных областей SciLibRu, как продолжения семантического описания научных трудов проекта LibMeta. В основе этой библиотеки лежит концептуальная модель данных, структура и семантика которой сформированы на принципах онтологического моделирования. Такой подход обеспечивает строгое описание предметной области, формализацию взаимосвязей между сущностями и возможность дальнейшего автоматизированного анализа данных. Целью настоящего исследования были разработка и экспериментальное применение методов структуризации содержимого научных журналов в формате LaTeX для их интеграции в онтологию библиотеки и обеспечения семантического поиска.


Предложен алгоритм трансляции в формат XML данных, представленных множеством файлов, для интеграции в онтологию библиотеки. Реализован модуль векторного поиска, основанный на вычислении эмбеддингов с использованием языковых моделей. Выявлены закономерности распределения эмбеддингов и факторы, влияющие на точность ранжирования результатов поиска. Проведено тестирование двух названых компонентов.


Разработанный метод составляет основу для автоматического включения содержимого научных журналов в граф знаний SciLibRu и создания обучающих корпусов для языковых моделей, ограниченных рамками научных предметных областей. Полученные результаты способствуют развитию систем навигации по графу знаний журналов, а также рекомендательных механизмов и инструментов интеллектуального поиска по русскоязычным научным текстам.

Ключевые слова: полуструктурированные данные, онтология текста, LaTeX, векторное представление текста, полнотекстовый поиск, семантический поиск.

Атрибуция архивных рукописных писем с использованием сиамских нейронных сетей

Наталия Михайловна Пронина
1454-1480
Аннотация:

Предложен метод автоматической атрибуции архивных рукописных писем на основе сиамской нейронной сети, решающий ключевую проблему цифровой гуманитаристики – установление авторства исторических документов. Актуальность исследования обусловлена массовой оцифровкой архивов XVII–XIX вв., атрибуция которых затруднена из-за неполных исходных сведений об авторах.


Метод адаптирован к работе с реальным корпусом текстов и учитывает характерные для архивов проблемы: некачественные оцифровки, значительную вариативность почерка и выраженный дисбаланс классов (от 1 до 50 и более образцов на автора). Применение сиамской архитектуры позволяет получать дискриминативные векторные представления, эмбеддинги, на основе которых выполняется не только классификация документов известных авторов, но и эффективно выявляются рукописи, не принадлежащие ни одному из них. Это сужает круг кандидатов для последующей экспертной проверки.


Представлен алгоритм предобработки данных и проведено сравнительное исследование двух подходов к анализу текста: на уровне фрагментов изображения (300 × 300 пикселей) и уровне отдельных строк. Разработанный инструмент предлагает архивным работникам и филологам эффективное решение для предварительной сортировки и атрибуции крупных массивов рукописных документов.

Ключевые слова: сиамская нейронная сеть, идентификация, верификация, атрибуция, рукописный текст, архивные документы, сверточная нейронная сеть, рекуррентная нейронная сеть.

Сокрытие в смысле: семантическое кодирование для генеративно-текстовой стеганографии

Олег Юрьевич Рогов, Дмитрий Евгеньевич Инденбом, Дмитрий Сергеевич Корж, Дарья Валерьевна Пугачёва, Всеволод Александрович Воронов, Елена Викторовна Тутубалина
1165-1185
Аннотация:

В статье предложена новая система для генерации стеганографического текста, скрывающая двоичные сообщения в семантически связном естественном языке с помощью скрытого пространства, обусловливающего большие языковые модели (LLM). Секретные сообщения сначала кодируются в непрерывные векторы с помощью обученного отображения двоичного кода в скрытое пространство, которое используется для управления генерацией текста посредством донастройки префикса. В отличие от предыдущих методов стеганографии на уровне токенов или синтаксиса, наш метод позволяет избежать явной манипуляции словами и вместо этого работает полностью в скрытом семантическом пространстве, что обеспечивает более плавные и менее заметные результаты. На стороне получателя скрытое представление восстанавливается из сгенерированного текста и декодируется обратно в исходное сообщение.
В качестве ключевого теоретического вклада мы предоставляем гарантию надежности: если восстановленный скрытый вектор находится в пределах ограниченного расстояния от изначального, обеспечивается точное восстановление сообщения, причем граница определяется константой Липшица декодера и минимальным отступом логитов. Этот формальный результат предлагает принципиальный подход к компромиссу между надежностью и емкостью в скрытых стеганографических системах. Эмпирическая оценка как на синтетических данных, так и в практических предметных областях, таких как отзывы на Amazon, показывает, что наш метод достигает высокой точности восстановления сообщений (выше 91%), высокую плавность текста и конкурентоспособную емкость до 6 бит на элемент предложения, сохраняя при этом устойчивость к нейронному стегоанализу. Эти результаты демонстрируют, что генерация со скрытым условием предлагает безопасный и практичный путь для встраивания информации в современные LLM.

Ключевые слова: стеганография, семантическое кодирование, языковые модели, донастройка префиксов, граф знаний, генерация естественного языка, скрытое обусловливание, нейронный стегоанализ.

Автоматизация чтения связанных данных из реляционных и нереляционных баз данных в контексте использования стандарта JPA

Ангелина Сергеевна Савинчева, Александр Андреевич Ференец
656-678
Аннотация:

Описан процесс автоматизации управления операцией чтения связанных данных из реляционных и нереляционных баз данных.


Разработанный программный инструмент основан на использовании стандарта JPA (Java Persistence API), который определяет возможности контроля жизненного цикла сущностей в Java-приложениях. Спроектирована архитектура встраивания в событийные процессы, позволяющая интегрировать решение в проекты вне зависимости от используемой реализации JPA. Реализована поддержка различных стратегий загрузки данных, типов и параметров отношений. Осуществлена оценка производительности инструмента.

Ключевые слова: JPA, ORM, Java, базы данных, реляционные базы данных, нереляционные базы данных.

Условная генерация электрокардиограмм с помощью иерархических вариационных автокодировщиков

Иван Анатольевич Свиридов, Константин Сергеевич Егоров
1186-1206
Аннотация:

Сердечно-сосудистые заболевания являются одной из основных причин смертности. Автоматический анализ электрокардиограмм (ЭКГ) может существенно облегчить работу врачей, но его эффективность ограничена нехваткой и несбалансированностью данных. Создание синтетических ЭКГ помогает частично решить эти проблемы. Хотя чаще всего для этого применяются генеративно-состязательные сети (GAN), но последние исследования показали, что вариационные автокодировщики (VAE) могут обеспечивать сопоставимое качество.


В работе представлена модель cNVAE-ECG — модификация Nouveau VAE (NVAE), способная генерировать 12 отведений 10-секундных ЭКГ с различными патологиями. Используя компактную схему работы с каналами и встроенные представления классов для условной генерации, cNVAE-ECG улучшает результаты в задачах бинарной и multi-label классификации, обеспечивая прирост метрики AUROC до 2% по сравнению с моделями на основе GAN. Модель представлена в открытом доступе: https://github.com/univanxx/cNVAE_ECG.

Ключевые слова: ЭКГ, вариационный автокодировщик, условная генерация, GAN.

Применение методов машинного обучения для повышения качества тестов

Рамиль Радикович Минюков, Михаил Михайлович Абрамский
701-717
Аннотация:

Работа посвящена применению методов машинного обучения для повышения качества тестов. Проведен обзор предметной области и реализованы два метода повышения качества: поиск похожих вопросов и оценка качества дистракторов. Первый включает тестирование пяти моделей трансформеров для получения векторного представления текста и шесть алгоритмов кластеризации. Второй метод основан на использовании тех же моделей трансформеров совместно с тремя алгоритмами классификации. Результаты экспериментов показали высокую эффективность предложенных решений при решении обеих задач.

Ключевые слова: анализ тестовых вопросов, дистракторы, машинное обучение, прохождение тестов, тесты, повышение качества тестов.
1 - 11 из 11 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2026 Казанский (Приволжский) федеральный университет; Институт развития информационного общества