Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Социально-психологические особенности работы с обучающимися по повышению процента оригинальности научно-исследовательских работ

Николай Александрович Котелевцев

37-45

Аннотация: Рассмотрены социально-психологические особенности работы с обучающимися по повышению процента оригинальности научно-исследовательских работ. Представлены результаты проведенного экспериментального исследования. В качестве детерминант, обуславливающих стремление к повышению научности и оригинальности работ членов учебных групп, выделены совместная деятельность и уровень развития коллектива. Установлена зависимость между внедрением технологий построения развивающих социальных сред по Л.И. Уманскому и А.С. Чернышеву в образовательный процесс и развитием субъектных качеств, как личности, так и группы. В качестве гипотетического положения выдвинуто предположение о том, что степень включенности группы в социальную среду и уровень развития коллектива способствуют формированию у обучающихся установки на продуктивную совместную деятельность в рамках выполнения научно-исследовательских работ. Положительный социально-психологический климат в учебной группе и общий уровень мотивационных установок опосредуют вероятность высокой оригинальности научного текста у обучающихся. В исследовании приняло участие более 200 человек. В итоге установлено, что на фоне преобладания совместно-индивидуальной формы организации совместной деятельности у большинства обучающихся отмечается средний уровень оригинальности текста научно-исследовательских работ. В жизнедеятельность учебных групп вносились следующие изменения: внедрение совместно-взаимозависимой формы организации совместной учебной и воспитательной работы, организация научных кружков с включением в них испытуемых, введение рейтинговой оценки степени оригинальности текстов научно-исследовательских работ обучающихся. В результате нами наблюдались положительные динамические сдвиги как на качественном, так и количественном уровнях. Внедрение в жизнедеятельность групп совместно-взаимозависимой формы организации совместной учебной и воспитательной работы способствовало раскрытию научного потенциала обучающихся на фоне обучения (в научно-популярной и игровой форме) принципам построения научного текста, работе с методической литературой, организации исследовательской деятельности (от теоретического до экспериментального уровня). Таким образом, можно говорить о том, что выделенные социально-психологические компоненты способствуют развитию личностных качеств обучающихся, тем самым повышая степень их ответственности за достоверность и оригинальность предоставления теоретической и практической информации в рамках выполняемых научно-исследовательских работ.

Ключевые слова: оригинальность, развивающая социальная среда, мотивация, психологический климат, совместная деятельность.

О применимости нейросетей в издательском деле

Сухайлии Илхом Ширинбегзода, Даниил Андреевич Шишкин, Богдан Сергеевич Усманов, Николай Михайлович Боргест

960-975

Аннотация:

В работе дана оценка границ применимости больших языковых моделей в редакционных задачах издательского процесса и установлен оптимальный формат взаимодействия между человеком и алгоритмическими системами.

Методологической основой исследования является сравнительный эксперимент, в рамках которого несколько популярных нейросетевых моделей (Alice AI, GigaChat, DeepSeek, Gemini и ChatGPT) выполнен статистический анализ контрольного текста на русском языке. Определялись количественные характеристики текста: числа слов, символов с пробелами и без пробелов, а также количества абзацев. Полученные результаты сопоставлялись с эталонными значениями, установленными с помощью текстового редактора MS Word, использующего детерминированный алгоритм подсчета символов.

Результаты эксперимента показали, что нейросетевые модели демонстрируют различную степень точности при выполнении задач количественного анализа текста. Основной причиной подобных ошибок являются архитектура больших языковых моделей и использование алгоритмов токенизации, которые разрывают прямую связь между символами и внутренним представлением текста в модели.

На основе полученных результатов предложена концепция гибридной архитектуры издательских информационных систем, в которой генеративные языковые модели используются для выполнения творческих и аналитических задач, а операции, требующие строгой формальной точности, передаются специализированным детерминированным микросервисам. Предложенный подход позволяет повысить надежность и предсказуемость работы интеллектуальных издательских систем.

Ключевые слова: искусственный интеллект, издательское дело, большие языковые модели, нейросети, автоматизация, токенизация, редакционный процесс.

Сокрытие в смысле: семантическое кодирование для генеративно-текстовой стеганографии

Олег Юрьевич Рогов, Дмитрий Евгеньевич Инденбом, Дмитрий Сергеевич Корж, Дарья Валерьевна Пугачёва, Всеволод Александрович Воронов, Елена Викторовна Тутубалина

1165-1185

Аннотация:

В статье предложена новая система для генерации стеганографического текста, скрывающая двоичные сообщения в семантически связном естественном языке с помощью скрытого пространства, обусловливающего большие языковые модели (LLM). Секретные сообщения сначала кодируются в непрерывные векторы с помощью обученного отображения двоичного кода в скрытое пространство, которое используется для управления генерацией текста посредством донастройки префикса. В отличие от предыдущих методов стеганографии на уровне токенов или синтаксиса, наш метод позволяет избежать явной манипуляции словами и вместо этого работает полностью в скрытом семантическом пространстве, что обеспечивает более плавные и менее заметные результаты. На стороне получателя скрытое представление восстанавливается из сгенерированного текста и декодируется обратно в исходное сообщение.
В качестве ключевого теоретического вклада мы предоставляем гарантию надежности: если восстановленный скрытый вектор находится в пределах ограниченного расстояния от изначального, обеспечивается точное восстановление сообщения, причем граница определяется константой Липшица декодера и минимальным отступом логитов. Этот формальный результат предлагает принципиальный подход к компромиссу между надежностью и емкостью в скрытых стеганографических системах. Эмпирическая оценка как на синтетических данных, так и в практических предметных областях, таких как отзывы на Amazon, показывает, что наш метод достигает высокой точности восстановления сообщений (выше 91%), высокую плавность текста и конкурентоспособную емкость до 6 бит на элемент предложения, сохраняя при этом устойчивость к нейронному стегоанализу. Эти результаты демонстрируют, что генерация со скрытым условием предлагает безопасный и практичный путь для встраивания информации в современные LLM.

Ключевые слова: стеганография, семантическое кодирование, языковые модели, донастройка префиксов, граф знаний, генерация естественного языка, скрытое обусловливание, нейронный стегоанализ.

Учёт структуры документа в методе автоматического аннотирования математических понятий в образовательных текстах

Константин Сергеевич Николаев

558-577

Аннотация:

Обогащение образовательных текстов семантическим содержимым (в частности, дополнение документа гиперссылками на страницы сервиса, отображающего подробную информацию о понятиях, используемых в тексте) способствует повышению эффективности усвоения материала обучающимися. Существующие методы семантической разметки образовательных текстов не учитывают структурные особенности таких документов, что приводит к избыточному распознаванию понятий.

В статье описано развитие метода автоматического аннотирования математических понятий в образовательных математических текстах путем добавления функционала для учета структуры образовательного документа. Основное назначение метода заключается в обработке образовательных материалов курса дистанционного образования «Технология решения планиметрических задач». Соблюдение единого шаблона при создании страниц курса позволяет применить анализ веб-разметки страниц и ключевых слов, примененных создателями курса. Основной задачей в данном процессе является определение типа ячеек таблицы, в которых находятся текстовые фрагменты образовательных материалов. В соответствии с рекомендациями создателей курса, определения необходимо выделять в ячейках, содержащих постановку задачи, а также в тех блоках, где указаны входные данные задачи. Определение типа ячеек таблиц производится с помощью анализа их атрибутов и поиска ключевых слов в их содержимом. Такое ограничение распознаваемых фрагментов текста позволяет улучшить восприятие страниц курса учеником и повысить качество усвоения учебного материала.

Ключевые слова: семантический анализ, математическая онтология, дидактические отношения, математическое образование, разметка документа.

Подход к созданию корпуса текстов видеоигр на основе универсальной структуры

Никита Рамильевич Нурлыгаянов, Влада Владимировна Кугуракова

578-597

Аннотация:

Рассмотрена проблема высокой и увеличивающейся стоимости разработки видеоигр, для её решения предложено применить процедурную генерацию контента, что позволит снизить затраты на разработку.

Работа является частью масштабного исследования по автоматическому созданию прототипов видеоигр и посвящена обработке игровых сценариев, то есть текстов на естественном языке. Предложено выделять из сценариев необходимые сущности и передавать их дальнейшим шагам алгоритма, который по текстовым описаниям будет генерировать игровые ресурсы.

Существует несколько публикацией, посвящённых обработке игровых текстов, в которых предложено несколько различных структур хранения выделенной информации. В настоящей статье предложен универсальный формат, который подойдёт для обработки текста любой видеоигры и позволит создать корпус текстов для использования в дальнейших исследованиях и автоматической генерации игровых прототипов.

Ключевые слова: PCG, NLP, разработка видеоигр.

Проблема построения синтетических психологических данных: опыт моделирования реакций на фрустрацию

Анфиса Анваровна Чуганская, Данил Алексеевич Киреев, Иван Валентинович Смирнов, Олег Георгиевич Григорьев

1235-1252

Аннотация:

Вопрос генерации синтетических данных для психологических исследований остается актуальным и сложным. Проблемы конфиденциальности, надежности, достоверности, валидности выводов остаются неравномерно представленными для различных областей психологии и фактически оказываются взаимосвязанными с решением вопроса использования синтетических данных в смежных науках – медицине, социологии, истории, политологии, экономике. Изучение различных психологических феноменов в рамках исследований больших социальных групп сопряжено с проблемами анализа сложно формализуемых конструктов. Под синтетическими общем виде понимают данные, искусственно сгенерированные на основе алгоритмов и моделирования.

В качестве основы настоящего исследования была выбрана классификация типов реакции на фрустрацию С. Розенцвейга. При анализе сетевого дискурса существует проблема малочисленности некоторых типов. Особенно это касается класса импунитивных реакций. В работе проанализирована возможность создания корпуса синтетических данных (на примере корпуса текстов реакций на фрустрацию), сгенерированными с помощью больших языковых моделей. При проведении экспериментов экспертами были созданы промпты и выполнена генерация примеров импунитивных реакций с помощью четырех больших языковых моделей, по 10 примеров каждого типа реакций. Была также дана проведена оценка контекстной достоверности и качества генерации. Полученные результаты позволяют определить слабые стороны генерации текстов со сложными психологическими феноменами для обучения нейросетевых моделей.

Ключевые слова: фрустрация, большая языковая модель (LLM), синтетические данные, искусственный интеллект, промпт, сетевая дискуссия, классификация Розенцвейга.

In situ двухдиапазонная 3D-дефектоскопия стенописей архитектурных памятников

Влада Владимировна Кугуракова, Евгений Юрьевич Зыков, Алексей Валерьевич Касимов, Айрат Габитович Ситдиков, Андрей Андреевич Скобелев, Евгения Флюровна Шайхутдинова

538-558

Аннотация: Статья посвящена проблеме создания методики мониторинга состояния и систематизации сведений о фресковой живописи объектов культурного наследия. Проблема может быть решена путем компиляции традиционного метода картографирования фресок с применением современных средств визуализации. Описана новая технология Project Tango для фиксации текстур сложных 3D внутренних объёмов архитектурных памятников. Предложены методика экспресс сканирования с автоматическим картограммированием для дальнейшего сравнительного анализа изменения состояния стенописей и методика оценки процента утраты.

Ключевые слова: дефектоскопия, трехмерная визуализация, Project Tango, инфракрасный датчик, SLAM, SFM, PTAM, Structure from motion, Monocular vision, Stereo vision, архитектурный памятник, объект культурного наследия, мониторинг, картограммирование.

Разработка интеллектуальной системы поиска для математического архива публикаций

Алексей Алексеевич Насибулин, Ольга Муратовна Атаева

860-876

Аннотация:

В работе проведено исследование, связанное с поиском схожих документов по математике. Разработан рекомендательный алгоритм нахождения похожих научных статей по данной тематике, использующий приоритетный поиск по математическим формулам с текстовым подкреплением.

Выполнен перевод текста из графического в текстовое представление через технологию OCR для последующего анализа и индексации. В процессе анализа реализовано разбиение текста на блоки с последующим извлечением из текста значимых формул, ключевых слов и фраз. В процессе индексации сформирована векторная база данных на основе векторных представлений формул, полученных через процесс эмбеддинга. Результаты индексации использованы при поиске статей, имеющих сходство с документом, подаваемым пользователем на вход алгоритма. Получен список похожих статей с сортировкой результатов по метрике близости векторных представлений формул.

Исходные данные представляют собой около 5000 научных статей, посвященных различным исследованиями по математической тематике и представленных в виде PDF-файлов.

Эксперимент проведен на основе данных конкретного контента библиотечной системы, но предложенная технология может быть распространена на другие библиотечные системы, в том числе содержащие статьи по другим тематикам, например, по физике и другим точным наукам.

Ключевые слова: поиск по формулам, семантика, извлечение знаний, математический поиск, семантический поиск.

Анализ моделей векторных представлений слов в задаче разметки семантических ролей в русскоязычных текстах

Лейсан Маратовна Кадермятова, Елена Викторовна Тутубалина

1026-1043

Аннотация: Изучено влияние использования векторных представлений слов на качество установления семантических ролей в русскоязычных текстах. Задача установления семантических ролей в русскоязычных текстах получила широкое распространение после выхода на свет корпуса FrameBank. Были исследованы модели векторных представлений слов word2vec, fastText и ELMo (Embeddings from Language Models). Анализировались метрики качества микро- и макро-F1 как оценочные показатели результатов автоматической разметки актантов. Был проведен ряд экспериментов, демонстрирующих, что модели ELMo, основанные на токенах предикатно-аргументных конструкций, показывают больший прирост качества по сравнению со всеми остальными моделями, в том числе, в сопоставлении с моделями ELMo, обученными на леммах, как по величине микро-F1, так и по величине макро-F1.

Ключевые слова: машинное обучение, обработка естественного языка, векторные представления слов, семантические роли.

Поиск слов в рукописном тексте на основе штриховой сегментации

Иван Дмитриевич Морозов, Леонид Моисеевич Местецкий

1435-1453

Аннотация:

Рукописные архивные документы составляют фундаментальную часть культурного наследия человечества, однако их анализ остается трудоемкой задачей для профессиональных исследователей-историков, филологов и лингвистов. В отличие от коммерческих приложений систем OCR (Optical Character Recognition, оптического распознавания символов), работа с историческими рукописями требует принципиально иного подхода из-за чрезвычайного многообразия почерков, наличия правок и деградации материалов.

Предложен метод поиска в рукописных текстах, основанный на штриховой сегментации. Вместо полного распознавания текста, часто недостижимого для исторических документов, метод позволяет эффективно отвечать на поисковые запросы исследователей. Ключевая идея заключается в декомпозиции текста на элементарные штрихи, формировании семантических векторных представлений с помощью контрастного обучения, последующей кластеризации и классификации для создания адаптивного словаря почерка.

Экспериментально показано, что поиск сравнением кортежей редуцированных последовательностей наиболее информативных штрихов по расстоянию Левенштейна обеспечивает достаточное качество для рассматриваемой задачи. Метод демонстрирует устойчивость к индивидуальным особенностям почерка и вариациям написания, что особенно важно для работы с авторскими архивами и историческими документами.

Предложенный подход открывает новые возможности для ускорения научных исследований в гуманитарной сфере, позволяя сократить время поиска нужной информации с недель до минут, что качественно меняет возможности исследовательской работы с большими архивами рукописных документов.

Ключевые слова: рукописный текст, поиск, штриховый анализ, сегментация, векторное представление, контрастное обучение, кластеризация.

Уверенность LLM при построении семантических классификаций аргументов

Даниил Сергеевич Ларионов, Елена Николаевна Никитина, Иван Валентинович Смирнов

1155-1173

Аннотация:

Исследована проблема квантификации уверенности больших языковых моделей (Large Language Model, LLM) при автоматической семантической классификации аргументов при эмотивных предикатах. На материале русскоязычных сообщений социальных сетей проанализированы глаголы страха (пугать, бояться и др.) и эмоционального отношения (нравиться, любить) с семантическими ролями экспериенцера, каузатора и объекта. В работе дано сравнение самооценки уверенности LLM Claude Sonnet 4.5 с экспертной оценкой текстов рассуждений модели при классификации аргументов по тематической области «Здравоохранение». В эксперименте использована стратифицированная выборка из 300 примеров с применением цепочки рассуждений на русском языке и четырехступенчатой шкалы уверенности. Результаты показали умеренную корреляцию Спирмена между оценками эксперта и модели. Статистически значимая связь установлена только между самооценкой модели и фактической корректностью классификации, тогда как экспертная оценка лингвистических характеристик рассуждений не зависит от точности. Сделан вывод о том, что эксплицитные рассуждения LLM не связаны напрямую с самооценкой по степени уверенности и не влияют на процесс принятия решений; они могут являться важной функциональной частью пользовательского интерфейса, но не исследовательского.

Ключевые слова: семантическая роль, классификация аргументов, эмотивный предикат, большие языковые модели, рассуждение LLM, уверенность LLM.

Интеллектуальный поиск сложных объектов в массивах больших данных

Александр Михайлович Гусенков

40-76

Аннотация: Предложен подход к интеллектуальному поиску сложных объектов в различных типах структурно размеченных текстов, который может быть применен для обработки Больших данных (Big Data). Исследуются два вида представления информационных объектов: реляционные базы данных (РБД), которые структурно размечены своими схемами, и полнотекстовые естественнонаучные документы, содержащие математические выражения (формулы). Для таких полнотекстовых документов предлагается дополнительная автоматизированная разметка для организации поиска формул. В обоих случаях источником информации для построения онтологии и, в дальнейшем, организации поиска являются тексты на естественном языке, которые относятся к слабоструктурированным данным. Для РБД это комментарии к наименованиям таблиц и их атрибутов, а для естественнонаучных документов (статей, монографий и т. д.) – текстовое содержимое размеченных документов.

Ключевые слова: большие данные, семантический поиск, слабоструктурированные данные, онтологии, реляционные базы данных, естественнонаучные тексты, разметка математических выражений.

Методы автоматического присвоения кодов УДК математическим статьям: оценка классических и нейросетевых подходов

Булат Тимурович Гизатуллин, Ольга Авенировна Невзорова

699-718

Аннотация:

Универсальная десятичная классификация (УДК) – это иерархическая система индексирования, в рамках которой одной публикации могут соответствовать один или несколько кодов. Ручное присвоение кодов УДК трудоемко и нередко оказывается неоднородным. В работе рассмотрена задача автоматического присвоения кодов УДК русскоязычным математическим статьям. Цель исследования – сравнить различные сочетания текстовых представлений и моделей классификации на едином корпусе и определить наиболее эффективные конфигурации. Для этого был сформирован корпус из 4194 статей с ресурса Math-Net.Ru, включающий полные тексты, аннотации, метаданные и коды УДК; были выполнены извлечение текста из PDF-файлов, очистка артефактов верстки и нормализация кодов. В эксперименте сопоставлялись текстовые представления TF-IDF, Word2Vec, SciRus-tiny и SciRus-tiny3.5 в сочетании с моделями логистической регрессии, Complement Naive Bayes (CNB) и CatBoost. Наилучшие результаты в обеих постановках – однозначной (single-label) и многозначной (multi-label) – показала модель TF-IDF + LogReg; близкие результаты продемонстрировала конфигурация TF-IDF + CNB. Полученные результаты могут быть использованы при разработке систем автоматической рубрикации научных публикаций, рекомендательных сервисов для авторов и редакторов, а также средств контроля качества тематической разметки.

Ключевые слова: автоматическая классификация, универсальная десятичная классификация, УДК, обработка научных текстов, машинное обучение, иерархическая классификация, многозначная классификация, математические тексты, цифровые библиотеки, векторизация текста.

Гибридная система программирования для учебных исполнителей на Python

Миля Вячеславовна Райко

398-414

Аннотация:

Рассмотрена методика разработки учебных формальных исполнителей с использованием комбинированного пиктограммно-текстового интерфейса на языке программирования Python. Актуальность исследования обусловлена необходимостью совершенствования подходов к обучению алгоритмизации и программированию в школьном курсе информатики. Представлен разработанный инструментарий для создания формальных исполнителей, сочетающий наглядность пиктограмм с возможностями текстового программирования. Особое внимание уделено практическим аспектам реализации, включая использование встроенных методов Python для обработки графических и текстовых данных.

Ключевые слова: формальный исполнитель, визуализация, программирование, пиктограммный интерфейс, Python.

Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов

Олег Юрьевич Бахтеев, Маргарита Валерьевна Кузнецова, Алексей Владимирович Романов, Юрий Викторович Чехович

298-304

Аннотация: Работа посвящена описанию метода детектирования искусственных и ненаучных текстов в коллекции научных статей. Предлагаемый метод основан на лексическом и морфологическом анализе проверяемого документа, позволяющем оценить вероятность его принадлежности к классу научных документов. Эксперименты подтверждают возможность практического применения метода.

Ключевые слова: обработка естественного языка, классификация документов, анализ текстов, статистические языковые модели, детектирование искусственных текстов.

Формирование и разметка корпуса русскоязычных новостных текстов для автоматизированного выявления политических манипуляций

Нина Леонидовна Кулюлина

782-797

Аннотация:

Исследована проблема создания специализированных корпусных ресурсов для задач автоматизированного анализа политических манипуляций в русскоязычных текстах. Несмотря на активное развитие методов семантического и вычислительного анализа текстов, существующие корпусные ресурсы и схемы разметки в основном ориентированы на англоязычные данные и плохо учитывают языковую и контекстуальную специфику русскоязычных новостных средств массовой информации (СМИ).

Целями исследования были создание специализированного корпуса русскоязычных новостных текстов и разработка схемы разметки, ориентированной на автоматизированный анализ политических манипуляций с учетом особенностей русскоязычного медиапространства.

В рамках проведенного исследования сформирован корпус фраз, извлеченных из русскоязычных новостных текстов и опубликованных в период 2010–2019 гг., и разработана схема разметки манипулятивных техник. В основе разметки лежит адаптация международных классификаций манипулятивных стратегий, сведенных к ограниченному числу интерпретируемых техник, релевантных для анализа русскоязычных новостных текстов. Предлагаемая схема охватывает эмоциональные, аргументативные и контекстуальные формы манипулятивного воздействия.

Полученные корпус и схема разметки могут использоваться в качестве эмпирической основы для разработки и тестирования методов автоматизированного анализа политических манипуляций в русскоязычных новостных СМИ, а также дальнейших исследований политических и медиа-текстов.

Ключевые слова: медиа-манипуляции, русскоязычные СМИ, корпус текстов, разметка данных, манипулятивные техники, политическая коммуникация, семантический анализ, вычислительный дискурс-анализ.

Формирование расширенных поисковых запросов на основе тезауруса предметной области в онтологии знаний семантической библиотеки

271-291

Аннотация: Обсуждены возможности расширения поискового запроса при наличии тезауруса предметной области. Роль контекста, задаваемого связями терминов тезауруса, заключается как в уточнении запроса, так и в увеличении масштабов выборки по запросу. Особое значение процесс расширения запроса имеет для научных предметных областей, где поиск опирается на специальную терминологию. В этом случае необходимо использовать тезаурусы предметных областей, чтобы минимизировать появление информационного шума. Предлагаемый подход позволяет учитывать особенности применения аналогичной терминологии в различных предметных областях. Примеры использования тезауруса отдельных разделов уравнений математической физики и смежных областей демонстрируют эффективность выбранного подхода исследований. Благодаря связям с понятиями информационных ресурсов других областей знаний, расширение информационного запроса захватывает поисковые поля отдаленных предметных областей и различных типов данных, текстов, символьных, звуковых и видеоархивов. Исследования показали, что расширение запроса на основе семантики контекста улучшает качество поиска научных публикаций в цифровой информации и повышает эффективность научных междисциплинарных исследований.

Ключевые слова: сравнение научных текстов, семантический поиск, тезаурус для онтологии знаний, информационный запрос с помощью тезауруса, семантические библиотеки.

Результаты исследований по обнаружению заимствований с использованием анализа цитирований

Вадим Николаевич Гуреев, Николай Алексеевич Мазов

322-331

Аннотация:

Переводной плагиат как одна из наиболее распространенных в научном информационном пространстве разновидностей плагиата представляет собой трудноразрешимую проблему, поскольку практически не поддается автоматизированному выявлению. Между тем за последние пять лет в этом направлении наблюдается прогресс. Авторами настоящей работы, а также группой зарубежных исследователей из нескольких университетов независимо друг от друга был предложен подход к выявлению плагиата на основе анализа цитирований, при котором для анализируемой подозрительной публикации находится возможный первоисточник с идентичным или схожим списком цитируемой литературы, что в итоге позволяет сличать текст на разных языках. Разработанная методика обнаружения неправомерных заимствований в научных текстах успешно прошла тестовые исследования. В статье приведены результаты четырехлетних исследований.

Ключевые слова: обнаружение заимствований, переводной плагиат, выявление плагиата, анализ цитирования, база данных цитирований.

Система тестирования контроллеров, основанная на распознавании текста на экране

Александр Александрович Докукин

1368-1384

Аннотация:

Описано решение задачи тестирования контроллеров на основе чтения информации с их экрана. Для этого разработана программно-аппаратная система, состоящая из камеры и программных модулей, реализующих необходимые алгоритмы и методы: модуля предобработки изображения; модуля определения типа меню; модуля обработки символов шрифта; модуль чтения текста, в том числе, написанного различными шрифтами; собственно модуля тестирования. Система реализована для контроллеров определенного типа с монохромным дисплеем 128 х 64 точек. Все методы реализованы на языке Python с использованием популярных библиотек. Система внедрена в эксплуатацию и на данный момент осуществляет автоматизацию нескольких наиболее трудоемких тестов. Поддерживается расширение их набора в виде плагинов.

Ключевые слова: компьютерное зрение, распознавание текста, тестирование контроллеров.

Повышение устойчивости классификации коротких текстов к стохастическому шуму на основе плотностной очистки обучающих выборок

Басар Бауржанович Баишев, Андрей Петрович Халов

681-698

Аннотация:

Рассмотрена задача классификации коротких текстовых заявок в условиях значительного дисбаланса классов и зашумленности реальных потоков обращений. Показана ограниченная эффективность методов синтетического расширения выборки при работе с зашумленной разметкой. Предложен гибридный метод, сочетающий предварительную плотностную очистку данных и многоуровневое ансамблирование моделей. Применение алгоритма плотностной кластеризации позволило исключить 16.5% информационного шума от общего объема выборки. Финальная модель представлена двухуровневой архитектурой и оптимизирована с помощью байесовского поиска гиперпараметров. На отложенной тестовой выборке достигнуто значение метрики R@3, равное 97.4%. Предложенный метод позволяет автоматизировать процесс распределения заявок, существенно снижая нагрузку на операторов и сокращая время диспетчеризации обращений.

Ключевые слова: обработка естественного языка, зашумленные текстовые данные, ансамблевое обучение, робастная классификация, фильтрация шума.

Атрибуция архивных рукописных писем с использованием сиамских нейронных сетей

Наталия Михайловна Пронина

1454-1480

Аннотация:

Предложен метод автоматической атрибуции архивных рукописных писем на основе сиамской нейронной сети, решающий ключевую проблему цифровой гуманитаристики – установление авторства исторических документов. Актуальность исследования обусловлена массовой оцифровкой архивов XVII–XIX вв., атрибуция которых затруднена из-за неполных исходных сведений об авторах.

Метод адаптирован к работе с реальным корпусом текстов и учитывает характерные для архивов проблемы: некачественные оцифровки, значительную вариативность почерка и выраженный дисбаланс классов (от 1 до 50 и более образцов на автора). Применение сиамской архитектуры позволяет получать дискриминативные векторные представления, эмбеддинги, на основе которых выполняется не только классификация документов известных авторов, но и эффективно выявляются рукописи, не принадлежащие ни одному из них. Это сужает круг кандидатов для последующей экспертной проверки.

Представлен алгоритм предобработки данных и проведено сравнительное исследование двух подходов к анализу текста: на уровне фрагментов изображения (300 × 300 пикселей) и уровне отдельных строк. Разработанный инструмент предлагает архивным работникам и филологам эффективное решение для предварительной сортировки и атрибуции крупных массивов рукописных документов.

Ключевые слова: сиамская нейронная сеть, идентификация, верификация, атрибуция, рукописный текст, архивные документы, сверточная нейронная сеть, рекуррентная нейронная сеть.

Семантический анализ корпуса научных статей на основе графового представления

Вадим Андреевич Чунихин, Сергей Александрович Зайцев, Ольга Муратовна Атаева

1253-1268

Аннотация:

Проблема эффективной навигации и поиска релевантной информации в постоянно растущем объеме научных публикаций требует перехода от классических методов полнотекстового поиска к семантическим моделям. В работе предложен подход к структурированию гетерогенного корпуса научных текстов путем построения графа знаний. Разработан конвейер обработки данных, включающий извлечение метаданных, ключевых слов и структурных элементов статей, а затем их интеграцию в единый граф. На основе построенного графа знаний реализованы методы анализа явных и извлечения неявных связей между публикациями. Результаты исследования демонстрируют эффективность графового представления научной информации для выявления скрытых закономерностей в предметных областях и поддержки интеллектуальной навигации.

Ключевые слова: семантический анализ, корпус научных статей, граф знаний, онтология, RDF, SPARQL, большие языковые модели, извлечение информации, графовые базы данных.

Реконструкция трехмерной модели человека по единственному изображению

Александр Сергеевич Тарасов, Влада Владимировна Кугуракова

485-504

Аннотация:

Статья посвящена подходам к обработке изображения для успешной реконструкции трехмерной модели человека, создаваемой методом неявной функции с выравниванием по пикселам, представленном FaceBook Research. Выявлены недостатки работы метода, связанные с ограничением качества исходного изображения, представлены рекомендации, позволяющие избежать его некорректной работы и предложены подходы улучшения исходного изображения, увеличивающие в 1,33 раза идентичность получаемой модели. Также была отработана тактика последующего наложения текстуры и внедрения набора анимаций.

Ключевые слова: распознавание лиц, реконструкция лиц, реконструкция фигуры, модель человека, метод неявной функции с выравниванием по пикселам, нейронная сеть.

Создание генератора псевдослов и классификация их схожести со словами словаря русского языка методами машинного обучения

Кирилл Алексеевич Ромаданский, Артемий Евгеньевич Ахаев, Тагмир Радикович Гилязов

145-162

Аннотация:

Под псевдословом понимается единица речи или текста, которая выглядит как реальное слово на русском языке, но на самом деле не имеет значения, а под настоящим или естественным словом – единица речи или текста, которая имеет толкование и представлена в словаре. Представлены две модели для работы с русским языком: генератор псевдослов и классификатор, оценивающий степень схожести введенной последовательности символов с настоящими словами. Классификатор использован для оценки результатов генератора. Обе модели основаны на рекуррентной нейронной сети с долгой краткосрочной памятью и обучены на датасете существительных русского языка. В результате создан файл, содержащий список сгенерированных псевдослов, оцененных классификатором. Псевдослова могут найти применение в задачах нейминга, брендирования и макетирования, в искусстве, для создания креативных произведений, и в языковых исследованиях, для изучения структуры языка и слов.

Ключевые слова: генерация слов, псевдослово, нейронная сеть, рекуррентная нейронная сеть, долгая краткосрочная память.

1 - 25 из 32 результатов 1 2 > >>