• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Базовые сервисы фабрики метаданных цифровой математической библиотеки Lobachevskii-DML

Полина Олеговна Гафурова, Александр Михайлович Елизаров, Евгений Константинович Липачёв
336-381
Аннотация: Решен ряд задач, связанных с построением фабрики метаданных цифровой математической библиотеки Lobachevskii-DML. Под фабрикой метаданных понимается система взаимосвязанных программных инструментов, направленных на создание, обработку, хранение и управление метаданными объектов цифровых библиотек и позволяющих интегрировать создаваемые электронные коллекции в агрегирующие цифровые научные библиотеки. С целью выбора оптимальных таких программных инструментов из существующих и их модернизации: обсуждены особенности представления метаданных документов различных электронных коллекций, связанные как с применяемыми форматами, так и с изменениями состава и полноты набора метаданных в течение всего времени издания соответствующего научного журнала;представлены и охарактеризованы программные инструменты управления научным контентом и методы организации автоматизированной интеграции репозиториев математических документов с другими информационными системами;обсуждена такая важная функция фабрики метаданных цифровой библиотеки, как нормализация метаданных в соответствии с форматами других агрегирующих библиотек.В результате разработки фабрики метаданных цифровой математической библиотеки Lobachevskii-DML предложена система сервисов автоматизированного формирования метаданных электронных математических коллекций; разработан xml-язык представления метаданных, основанный на Journal Archiving and Interchange Tag Suite (NISO JATS); созданы программные инструменты нормализации метаданных электронных коллекций научных документов в форматах, разработанных международными организациями – агрегаторами ресурсов по математике и Computer Science; разработан алгоритм приведения метаданных к формату oai_dc и генерации структуры архивов для импорта в цифровое хранилище DSpace; предложены и реализованы методы интеграции электронных математических коллекций Казанского университета в отечественные и зарубежные цифровые математические библиотеки.
Ключевые слова: цифровые библиотеки, цифровая математическая библиотека, формирование метаданных, извлечение метаданных, нормализация метаданных, фабрика метаданных, NISO JATS, семантические связи, Lobachevskii-DML.

Применение синтетических данных в задаче обнаружения аномалий в сфере информационной безопасности

Артем Игоревич Гурьянов
187-200
Аннотация:

В настоящее время в машинном обучении высокую актуальность имеют синтетические данные. Современные алгоритмы генерации синтетических данных дают возможность генерации данных, очень близких по статистическим свойствам к исходным данным. Синтетические данные используются на практике в широком спектре задач, в том числе связанных с аугментацией данных.


Предложен метод аугментации данных, совмещающий подходы увеличения объема выборки с помощью синтетических данных и генерации синтетических аномалий. Метод использован для решения задачи в сфере информационной безопасности, заключающейся в поиске аномалий в журналах сервера с целью обнаружения атак.


Модель, обученная в рамках решения названной задачи, показала высокие результаты. Это демонстрирует эффективность использования синтетических данных для увеличения объема выборки и генерации аномалий, а также возможность с высокой результативностью использовать эти подходы совместно.

Ключевые слова: синтетические данные, обнаружение аномалий, информационная безопасность, генерация аномалий, аугментация данных, машинное обучение.

Публикация данных об Особо Охраняемых Природных Территориях в пространстве Linked Open Data

К.А. Кузнецов, В.А. Серебряков, К.Б. Теймуразов
Аннотация: В этой статье предлагается проект системы публикации данных об Особо Охраняемых Природных Территориях (ООПТ) в пространстве Linked Open Data. Описана общая архитектура системы, принципы работы модулей связывания, публикации и интеграции данных. Также предлагается онтология ООПТ, основанная на европейских стандартах INSPIRE.
Ключевые слова: система интеграции пространственных данные, Linked Open Data, наборы RDF-связей, подсистема публикации данных, связывание данных.

Тенденции развития технологий обработки больших данных и инструментария хранения разноформатных данных и аналитики

Марат Рамилевич Биктимиров, Александр Михайлович Елизаров, Андрей Юрьевич Щербаков
390-407
Аннотация:

Статья посвящена анализу тенденций развития технологий обработки Больших Данных и инструментария хранения разноформатных данных и аналитики, который проведен в рамках работ по программе фундаментальных исследований Отделения математических наук РАН «Алгебраические и комбинаторные методы математической кибернетики и информационные системы нового поколения», а также гранта РФФИ № 14-07-00783 «Способы хранения и обработки большого объема научно-справочных данных на современных аппаратных платформах».

Ключевые слова: большие данные, анализ, информация, программное обеспечение, распределенные вычисления, системы хранения, облачные технологии.

Сокрытие в смысле: семантическое кодирование для генеративно-текстовой стеганографии

Олег Юрьевич Рогов, Дмитрий Евгеньевич Инденбом, Дмитрий Сергеевич Корж, Дарья Валерьевна Пугачёва, Всеволод Александрович Воронов, Елена Викторовна Тутубалина
1165-1185
Аннотация:

В статье предложена новая система для генерации стеганографического текста, скрывающая двоичные сообщения в семантически связном естественном языке с помощью скрытого пространства, обусловливающего большие языковые модели (LLM). Секретные сообщения сначала кодируются в непрерывные векторы с помощью обученного отображения двоичного кода в скрытое пространство, которое используется для управления генерацией текста посредством донастройки префикса. В отличие от предыдущих методов стеганографии на уровне токенов или синтаксиса, наш метод позволяет избежать явной манипуляции словами и вместо этого работает полностью в скрытом семантическом пространстве, что обеспечивает более плавные и менее заметные результаты. На стороне получателя скрытое представление восстанавливается из сгенерированного текста и декодируется обратно в исходное сообщение.
В качестве ключевого теоретического вклада мы предоставляем гарантию надежности: если восстановленный скрытый вектор находится в пределах ограниченного расстояния от изначального, обеспечивается точное восстановление сообщения, причем граница определяется константой Липшица декодера и минимальным отступом логитов. Этот формальный результат предлагает принципиальный подход к компромиссу между надежностью и емкостью в скрытых стеганографических системах. Эмпирическая оценка как на синтетических данных, так и в практических предметных областях, таких как отзывы на Amazon, показывает, что наш метод достигает высокой точности восстановления сообщений (выше 91%), высокую плавность текста и конкурентоспособную емкость до 6 бит на элемент предложения, сохраняя при этом устойчивость к нейронному стегоанализу. Эти результаты демонстрируют, что генерация со скрытым условием предлагает безопасный и практичный путь для встраивания информации в современные LLM.

Ключевые слова: стеганография, семантическое кодирование, языковые модели, донастройка префиксов, граф знаний, генерация естественного языка, скрытое обусловливание, нейронный стегоанализ.

Нейросимволический подход к дополненной генерации текста на основе автоматизированной индукции морфотактических правил

Марат Вильданович Исангулов, Александр Михайлович Елизаров, Айгиз Ражапович Кунафин, Айрат Рафизович Гатиатуллин, Николай Аркадиевич Прокопьев
1085-1102
Аннотация:

Представлен гибридный нейросимволический метод, который объединяет большую языковую модель (LLM) и конечный автомат (FST) для обеспечения морфологической корректности при генерации текста на агглютинативных языках.
Система автоматически извлекает правила из корпусных данных: для локальных примеров словоформ LLM формирует цепочки морфологического разбора, которые затем агрегируются и упорядочиваются в компактные описания правил морфотактики (LEXC) и выбора алломорфов (regex). На этапе генерации LLM и FST работают совместно: если токен не распознается автоматом, LLM извлекает из контекста пару «лемма + теги», а FST реализует корректную поверхностную форму. В качестве набора данных использован корпус художественной литературы (~1600 предложений). Для списка из 50 существительных извлечено 250 словоформ. По предложенному алгоритму LLM сгенерировала 110 контекстных regex-правил вместе с LEXC-морфотактикой, на основе чего был скомпилирован FST, распознавший 170/250 форм (~70%). В прикладном тесте машинного перевода на подкорпусе из 300 предложений интеграция данного FST в цикл LLM повысила качество с BLEU 16.14 / ChrF 45.13 до BLEU 25.71 / ChrF 50.87 без дообучения переводчика. Подход применим к иным частям речи и другим агглютинативным и малоресурсным языкам, где он может быть использован для наполнения словарных и грамматических ресурсов.

Ключевые слова: нейросимволический подход, большая языковая модель, конечные автоматы, двухуровневая морфология, LEXC морфотактика, машинный перевод, агглютинативные языки, башкирский язык.

Формирование академических групп и проектных команд на основе сбора данных об обучающихся

Наталья Александровна Коргутлова, Светлана Юрьевна Басаргина, Михаил Михайлович Абрамский, Марат Альбертович Солнцев, Таисия Сергеевна Бузукина
193-208
Аннотация: Обсуждены вопросы использования данных об обучающихся, представленных в электронном виде, в задачах генерации распределений обучающихся по академическим группам, элективам и проектным командам. Проиллюстрировано применение алгоритмов машинного обучения для этих задач. Показана возможность использования данных, собранных из социальных сетей.
Ключевые слова: личностный портрет студента, кластеризация, распределение по компетенциям, анализ социальных сетей.

Генерация трехмерных синтетических датасетов

Влада Владимировна Кугуракова, Виталий Денисович Абрамов, Даниил Иванович Костюк, Регина Айратовна Шараева, Рим Радикович Газизов, Мурад Рустэмович Хафизов
622-652
Аннотация:

Работа посвящена описанию процесса разработки универсального инструментария для генерации синтетических данных для обучения разных нейронных сетей. Используемый подход показал свою успешность и эффективность в решении различных задач, в частности, обучения нейросети для распознавания покупательского поведения внутри магазинов через камеры наблюдения и пространств устройствами дополненной реальности без использования вспомогательных инфракрасных камер. Обобщающие выводы позволяют спланировать дальнейшее развитие технологий генерации трехмерных синтетических данных.

Ключевые слова: синтетические данные, датасет, искусственный интеллект, нейронные сети, машинное обучение, компьютерное зрение, трехмерные модели, metahuman, игровые движки, Unreal Engine.

Онлайн-инструмент Tula для балансировки видеоигр

Валерия Рашидовна Рахманкулова, Влада Владимировна Кугуракова
903-930
Аннотация:

Разработан инструмент Tula для балансировки видеоигр. Его необходимость обоснована растущими требованиями к качеству и экономической эффективности в индустрии видеоигр, особенно в аспектах управления внутри-игровой экономикой и логикой игрового мира. Проанализированы существующие инструменты и подходы к балансировке игр, выявлены их ограничения, на основе которых построен функционал нового инструмента, интегрирующего функции современных решений и предоставляющего расширенные возможности для анализа и тестирования игровых параметров, включая генерацию прототипов через описание классов и симуляцию в реальном времени. Описаны технологическая база и архитектура инструмента. Рассмотрены ключевые аспекты реализации: отзывчивость интерфейса, непрерывное обновление данных и безопасность. Проведенный сравнительный анализ с известным инструментом Machinations показал преимущества в корректности обработки данных, удобстве интерфейса и гибкости модификации прототипов.

Ключевые слова: видеоигры, игровой процесс, игровые механики, игровой баланс, игровой дизайн, Machinations.

Алгоритм генерации кода пользовательского интерфейса мобильных приложений на основе данных графического редактора

Артемий Юрьевич Усачёв
250-267
Аннотация:

Работа посвящена разработке алгоритма генерации кода пользовательских интерфейсов нативных Android-приложений на основе данных графического редактора. Рассмотрена проблема негативного воздействия на время разработки продукта выполнения шаблонных действий и предложен программный инструмент для решения данной проблемы.

Ключевые слова: пользовательский интерфейс, графический редактор, алгоритм генерации, мобильные приложения.

Детекция галлюцинаций на основе внутренних состояний больших языковых моделей

Тимур Рустемович Айсин, Татьяна Вячеславовна Шамардина
1282-1305
Аннотация:

В последние годы большие языковые модели (Large Language Models, LLM) достигли значительных успехов в области обработки естественного языка и стали ключевым инструментом для решения широкого спектра прикладных и исследовательских задач. Однако с ростом их масштабов и возможностей все более острой становится проблема галлюцинаций – генерации ложной, недостоверной или несуществующей информации, представленной в достоверной форме. В связи с этим вопросы анализа природы галлюцинаций и разработки методов их выявления приобретают особую научную и практическую значимость.


В работе изучен феномен галлюцинаций в больших языковых моделях, рассмотрены их существующая классификация и возможные причины. На базе модели Flan-T5 также исследованы различия внутренних состоянии модели при генерации галлюцинаций и верных ответов. На основе этих расхождений представлены два способа детектирования галлюцинаций: с помощью карт внимания и скрытых состояний модели. Эти методы протестированы на данных из бенчмарков HaluEval и Shroom 2024 в задачах суммаризации, ответов на вопросы, перефразирования, машинного перевода и генерации определений. Кроме того, исследована переносимость обученных детекторов между различными типами галлюцинаций, что позволило оценить универсальность предложенных методов для различных типов задач.

Ключевые слова: большие языковые модели, галлюцинации, детекция, Flan-T5, обработка естественного языка, карты внимания, внутренние состояния, HaluEval, Shroom.

Цифровой помощник геолога-исследователя

Виталий Сергеевич Еременко, Вера Викторовна Наумова
781-787
Аннотация:

Представлены концепция и архитектура мультиагентной системы, предназначенной для функционирования в роли цифрового ассистента геолога-исследователя. Система нацелена на автоматизацию ключевых этапов научного исследования: от формулировки темы и анализа литературы до выдвижения гипотез и оформления результатов. Описана интеграция системы с платформой GeologyScience.ru, обеспечивающей доступ к разнородным геологическим данным и инструментам анализа, а также подходы к адаптации больших языковых моделей (LLM) для решения специализированных научных задач.

Ключевые слова: цифровой помощник геолога-исследователя, мультиагентная система, искусственный интеллект, LLM.

Развитие сетевых сервисов геопортала спутникового радиотепловидения: проект ИКАР

Дмитрий Михайлович Ермаков, Андрей Петрович Чернушич
50-76
Аннотация: Обсужден прогресс в развитии сетевых сервисов и технологий ранее созданного авторами геопортала спутникового радиотепловидения. Исходной задачей геопортала было обеспечить потенциальных пользователей доступом к результатам пространственно-временной интерполяции геофизических атмосферных полей. Практическая реализация потребовала внедрения технологии динамической генерации продуктов обработки. Использование этой технологии расширило круг решаемых задач и привело к созданию специализированного сервиса виртуальной интеграции пространственных геоданных ИКАР (Интерактивного Калькулятора для Атмосферных Расчетов). В работе описаны интерфейсные и технологические принципы, заложенные в основу проекта ИКАР, рассмотрены некоторые детали программно-алгоритмической реализации, приведены примеры практического применения.
Ключевые слова: геопортал, сетевые сервисы, спутниковое радиотепловидение, интерфейсы, программно-алгоритмическая реализация.

Инструменты балансирования игр

Гульнара Фаритовна Сахибгареева, Влада Владимировна Кугуракова, Эдуард Сергеевич Большаков
225-251
Аннотация:

Для раскрытия понятия игрового баланса и разработки подхода к автоматизации рутины при работе с игровой экономикой применены методы анализа данных и проведения экспериментов. По результатам анализа существующих определений выделены частный случай математического баланса и обобщенное дизайнерское определение игрового баланса. Благодаря анализу существующих подходов к балансированию и тестированию игр разработано видение собственного решения. На основе полученных выводов предложен подход к автоматизации балансирования в рамках генератора игрового прототипа. В качестве промежуточного итога представлены обновленная структура и порядок работы инструмента генерации игровых прототипов. Описаны перспективы дальнейшего развития исследований в данном направлении.

Ключевые слова: игровой баланс, математический баланс, автоматическое балансирование игры, Machinations, генерация игровых прототипов.

Условная генерация электрокардиограмм с помощью иерархических вариационных автокодировщиков

Иван Анатольевич Свиридов, Константин Сергеевич Егоров
1186-1206
Аннотация:

Сердечно-сосудистые заболевания являются одной из основных причин смертности. Автоматический анализ электрокардиограмм (ЭКГ) может существенно облегчить работу врачей, но его эффективность ограничена нехваткой и несбалансированностью данных. Создание синтетических ЭКГ помогает частично решить эти проблемы. Хотя чаще всего для этого применяются генеративно-состязательные сети (GAN), но последние исследования показали, что вариационные автокодировщики (VAE) могут обеспечивать сопоставимое качество.


В работе представлена модель cNVAE-ECG — модификация Nouveau VAE (NVAE), способная генерировать 12 отведений 10-секундных ЭКГ с различными патологиями. Используя компактную схему работы с каналами и встроенные представления классов для условной генерации, cNVAE-ECG улучшает результаты в задачах бинарной и multi-label классификации, обеспечивая прирост метрики AUROC до 2% по сравнению с моделями на основе GAN. Модель представлена в открытом доступе: https://github.com/univanxx/cNVAE_ECG.

Ключевые слова: ЭКГ, вариационный автокодировщик, условная генерация, GAN.

Исследование когнитивной функции при генерации эллиптических предложений в планиметрических задачах

Владимир Андреевич Пархоменко, Ксения Александровна Найденова, Татьяна Александровна Мартирова, Александр Валентинович Щукин
316-335
Аннотация:

Работа посвящена изучению когнитивной функции, связанной с генерацией эллиптических предложений в русском языке. Исследование проводилось на основе тестирования этой когнитивной способности с помощью компьютерной системы, специально разработанной авторами для этой цели. Тестирование этой когнитивной способности предложено и реализовано впервые. Система является расширением Moodle и открыто размещена в репозитории github. Эллиптические конструкции ограничиваются глагольными и именными эллипсисами, которые теоретически возможно полностью восстановить на основе контекста предложения. Исследование проводилось с участием в качестве респондентов студентов СПбПУ. В качестве предметной области были выбраны тексты планиметрических задач. В результате анализа данных тестирования получены следующие результаты: установлено влияние знаний респондента предметной области (планиметрии) на результаты тестирования; обнаружена тенденция к самообучению респондентов, что проявляется в сокращении времени и увеличении баллов по мере прохождения тестов; показано, что респонденты слабо мотивированы, если не видят отзыв на ответ по выполненному заданию.


Обсуждены проблемы дальнейшего развития системы тестирования и её применения при адаптации опросников (заданий) для оценки знаний студентов СПбПУ в области автоматизации обнаружения ошибок в программах, а также диагностики функционального состояния специалистов операторского профиля и экспресс-диагностики деменции. Перспективным представляется также применение системы для совершенствования процессов синтаксического разбора эллиптических предложений и автоматизации восстановления эллипсисов в предметной области планиметрии.

Ключевые слова: онлайн-система тестирования, разработка системы тестирования, когнитивная функция, эллипсис, планиметрия.

Описание контекстно-свободных грамматик в формате данных JSON для генераторов синтаксических анализаторов

Олег Константинович Осипов
1301-1323
Аннотация:

Рассмотрены варианты представления контекстно-свободных грамматик, предлагаемые средствами генерации синтаксических анализаторов. Приведён анализ существующих решений. Предложен новый формат описания грамматики. Дано описание грамматики в виде JSON-документа. Разработана концепция нового генератора, основанная на формате данных JSON для контекстно-свободных грамматик. Описана схема построения анализатора на основе концепции.

Ключевые слова: JSON-документ, контекстно-свободные грамматики, лексема, форма Бэкуса-Наура, дерево разбора, терминальные символы (токены), конечный детерминированный автомат, парсер, Parglare, ANTLR.

Сигнатурные методы анализа временных рядов

Кирилл Алексеевич Мащенко
681-700
Аннотация:

Сигнатурные методы представляют собой мощный инструмент анализа временных рядов, который преобразует их в форму, удобную для задач машинного обучения. В статье рассмотрены основные понятия сигнатуры пути, ее свойства и геометрический смысл, а также методы вычисления для различных типов временных рядов. Приведены примеры применения сигнатурных методов в различных областях, включая финансы, медицину и образование, продемонстрированы их преимущества перед традиционными подходами. Особое внимание уделено генерации синтетических данных на основе сигнатур, что особенно актуально в условиях ограниченного объема исходных данных. Представлены результаты экспериментальных исследований по генерации и предсказанию траекторий цифрового следа обучения студентов, подтверждающие эффективность сигнатурных методов для применения в задачах машинного обучения по анализу и прогнозированию временных рядов.

Ключевые слова: сигнатура, сигнатурные методы, временные ряды, генерация данных, анализ траекторий, цифровой след.
1 - 18 из 18 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2025 Казанский (Приволжский) федеральный университет; Институт развития информационного общества