• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Социально-психологические особенности работы с обучающимися по повышению процента оригинальности научно-исследовательских работ

Николай Александрович Котелевцев
37-45
Аннотация: Рассмотрены социально-психологические особенности работы с обучающимися по повышению процента оригинальности научно-исследовательских работ. Представлены результаты проведенного экспериментального исследования. В качестве детерминант, обуславливающих стремление к повышению научности и оригинальности работ членов учебных групп, выделены совместная деятельность и уровень развития коллектива. Установлена зависимость между внедрением технологий построения развивающих социальных сред по Л.И. Уманскому и А.С. Чернышеву в образовательный процесс и развитием субъектных качеств, как личности, так и группы. В качестве гипотетического положения выдвинуто предположение о том, что степень включенности группы в социальную среду и уровень развития коллектива способствуют формированию у обучающихся установки на продуктивную совместную деятельность в рамках выполнения научно-исследовательских работ. Положительный социально-психологический климат в учебной группе и общий уровень мотивационных установок опосредуют вероятность высокой оригинальности научного текста у обучающихся. В исследовании приняло участие более 200 человек. В итоге установлено, что на фоне преобладания совместно-индивидуальной формы организации совместной деятельности у большинства обучающихся отмечается средний уровень оригинальности текста научно-исследовательских работ. В жизнедеятельность учебных групп вносились следующие изменения: внедрение совместно-взаимозависимой формы организации совместной учебной и воспитательной работы, организация научных кружков с включением в них испытуемых, введение рейтинговой оценки степени оригинальности текстов научно-исследовательских работ обучающихся. В результате нами наблюдались положительные динамические сдвиги как на качественном, так и количественном уровнях. Внедрение в жизнедеятельность групп совместно-взаимозависимой формы организации совместной учебной и воспитательной работы способствовало раскрытию научного потенциала обучающихся на фоне обучения (в научно-популярной и игровой форме) принципам построения научного текста, работе с методической литературой, организации исследовательской деятельности (от теоретического до экспериментального уровня). Таким образом, можно говорить о том, что выделенные социально-психологические компоненты способствуют развитию личностных качеств обучающихся, тем самым повышая степень их ответственности за достоверность и оригинальность предоставления теоретической и практической информации в рамках выполняемых научно-исследовательских работ.
Ключевые слова: оригинальность, развивающая социальная среда, мотивация, психологический климат, совместная деятельность.

Сокрытие в смысле: семантическое кодирование для генеративно-текстовой стеганографии

Олег Юрьевич Рогов, Дмитрий Евгеньевич Инденбом, Дмитрий Сергеевич Корж, Дарья Валерьевна Пугачёва, Всеволод Александрович Воронов, Елена Викторовна Тутубалина
1165-1185
Аннотация:

В статье предложена новая система для генерации стеганографического текста, скрывающая двоичные сообщения в семантически связном естественном языке с помощью скрытого пространства, обусловливающего большие языковые модели (LLM). Секретные сообщения сначала кодируются в непрерывные векторы с помощью обученного отображения двоичного кода в скрытое пространство, которое используется для управления генерацией текста посредством донастройки префикса. В отличие от предыдущих методов стеганографии на уровне токенов или синтаксиса, наш метод позволяет избежать явной манипуляции словами и вместо этого работает полностью в скрытом семантическом пространстве, что обеспечивает более плавные и менее заметные результаты. На стороне получателя скрытое представление восстанавливается из сгенерированного текста и декодируется обратно в исходное сообщение.
В качестве ключевого теоретического вклада мы предоставляем гарантию надежности: если восстановленный скрытый вектор находится в пределах ограниченного расстояния от изначального, обеспечивается точное восстановление сообщения, причем граница определяется константой Липшица декодера и минимальным отступом логитов. Этот формальный результат предлагает принципиальный подход к компромиссу между надежностью и емкостью в скрытых стеганографических системах. Эмпирическая оценка как на синтетических данных, так и в практических предметных областях, таких как отзывы на Amazon, показывает, что наш метод достигает высокой точности восстановления сообщений (выше 91%), высокую плавность текста и конкурентоспособную емкость до 6 бит на элемент предложения, сохраняя при этом устойчивость к нейронному стегоанализу. Эти результаты демонстрируют, что генерация со скрытым условием предлагает безопасный и практичный путь для встраивания информации в современные LLM.

Ключевые слова: стеганография, семантическое кодирование, языковые модели, донастройка префиксов, граф знаний, генерация естественного языка, скрытое обусловливание, нейронный стегоанализ.

Учёт структуры документа в методе автоматического аннотирования математических понятий в образовательных текстах

Константин Сергеевич Николаев
558-577
Аннотация:

Обогащение образовательных текстов семантическим содержимым (в частности, дополнение документа гиперссылками на страницы сервиса, отображающего подробную информацию о понятиях, используемых в тексте) способствует повышению эффективности усвоения материала обучающимися. Существующие методы семантической разметки образовательных текстов не учитывают структурные особенности таких документов, что приводит к избыточному распознаванию понятий.


В статье описано развитие метода автоматического аннотирования математических понятий в образовательных математических текстах путем добавления функционала для учета структуры образовательного документа. Основное назначение метода заключается в обработке образовательных материалов курса дистанционного образования «Технология решения планиметрических задач». Соблюдение единого шаблона при создании страниц курса позволяет применить анализ веб-разметки страниц и ключевых слов, примененных создателями курса. Основной задачей в данном процессе является определение типа ячеек таблицы, в которых находятся текстовые фрагменты образовательных материалов. В соответствии с рекомендациями создателей курса, определения необходимо выделять в ячейках, содержащих постановку задачи, а также в тех блоках, где указаны входные данные задачи. Определение типа ячеек таблиц производится с помощью анализа их атрибутов и поиска ключевых слов в их содержимом. Такое ограничение распознаваемых фрагментов текста позволяет улучшить восприятие страниц курса учеником и повысить качество усвоения учебного материала.

Ключевые слова: семантический анализ, математическая онтология, дидактические отношения, математическое образование, разметка документа.

Подход к созданию корпуса текстов видеоигр на основе универсальной структуры

Никита Рамильевич Нурлыгаянов, Влада Владимировна Кугуракова
578-597
Аннотация:

Рассмотрена проблема высокой и увеличивающейся стоимости разработки видеоигр, для её решения предложено применить процедурную генерацию контента, что позволит снизить затраты на разработку.


Работа является частью масштабного исследования по автоматическому созданию прототипов видеоигр и посвящена обработке игровых сценариев, то есть текстов на естественном языке. Предложено выделять из сценариев необходимые сущности и передавать их дальнейшим шагам алгоритма, который по текстовым описаниям будет генерировать игровые ресурсы.


Существует несколько публикацией, посвящённых обработке игровых текстов, в которых предложено несколько различных структур хранения выделенной информации. В настоящей статье предложен универсальный формат, который подойдёт для обработки текста любой видеоигры и позволит создать корпус текстов для использования в дальнейших исследованиях и автоматической генерации игровых прототипов.

Ключевые слова: PCG, NLP, разработка видеоигр.

In situ двухдиапазонная 3D-дефектоскопия стенописей архитектурных памятников

Влада Владимировна Кугуракова, Евгений Юрьевич Зыков, Алексей Валерьевич Касимов, Айрат Габитович Ситдиков, Андрей Андреевич Скобелев, Евгения Флюровна Шайхутдинова
538-558
Аннотация: Статья посвящена проблеме создания методики мониторинга состояния и систематизации сведений о фресковой живописи объектов культурного наследия. Проблема может быть решена путем компиляции традиционного метода картографирования фресок с применением современных средств визуализации. Описана новая технология Project Tango для фиксации текстур сложных 3D внутренних объёмов архитектурных памятников. Предложены методика экспресс сканирования с автоматическим картограммированием для дальнейшего сравнительного анализа изменения состояния стенописей и методика оценки процента утраты.
Ключевые слова: дефектоскопия, трехмерная визуализация, Project Tango, инфракрасный датчик, SLAM, SFM, PTAM, Structure from motion, Monocular vision, Stereo vision, архитектурный памятник, объект культурного наследия, мониторинг, картограммирование.

Анализ моделей векторных представлений слов в задаче разметки семантических ролей в русскоязычных текстах

Лейсан Маратовна Кадермятова, Елена Викторовна Тутубалина
1026-1043
Аннотация: Изучено влияние использования векторных представлений слов на качество установления семантических ролей в русскоязычных текстах. Задача установления семантических ролей в русскоязычных текстах получила широкое распространение после выхода на свет корпуса FrameBank. Были исследованы модели векторных представлений слов word2vec, fastText и ELMo (Embeddings from Language Models). Анализировались метрики качества микро- и макро-F1 как оценочные показатели результатов автоматической разметки актантов. Был проведен ряд экспериментов, демонстрирующих, что модели ELMo, основанные на токенах предикатно-аргументных конструкций, показывают больший прирост качества по сравнению со всеми остальными моделями, в том числе, в сопоставлении с моделями ELMo, обученными на леммах, как по величине микро-F1, так и по величине макро-F1.
Ключевые слова: машинное обучение, обработка естественного языка, векторные представления слов, семантические роли.

Поиск слов в рукописном тексте на основе штриховой сегментации

Иван Дмитриевич Морозов, Леонид Моисеевич Местецкий
1435-1453
Аннотация:

Рукописные архивные документы составляют фундаментальную часть культурного наследия человечества, однако их анализ остается трудоемкой задачей для профессиональных исследователей-историков, филологов и лингвистов. В отличие от коммерческих приложений систем OCR (Optical Character Recognition, оптического распознавания символов), работа с историческими рукописями требует принципиально иного подхода из-за чрезвычайного многообразия почерков, наличия правок и деградации материалов.


Предложен метод поиска в рукописных текстах, основанный на штриховой сегментации. Вместо полного распознавания текста, часто недостижимого для исторических документов, метод позволяет эффективно отвечать на поисковые запросы исследователей. Ключевая идея заключается в декомпозиции текста на элементарные штрихи, формировании семантических векторных представлений с помощью контрастного обучения, последующей кластеризации и классификации для создания адаптивного словаря почерка.


Экспериментально показано, что поиск сравнением кортежей редуцированных последовательностей наиболее информативных штрихов по расстоянию Левенштейна обеспечивает достаточное качество для рассматриваемой задачи. Метод демонстрирует устойчивость к индивидуальным особенностям почерка и вариациям написания, что особенно важно для работы с авторскими архивами и историческими документами.


Предложенный подход открывает новые возможности для ускорения научных исследований в гуманитарной сфере, позволяя сократить время поиска нужной информации с недель до минут, что качественно меняет возможности исследовательской работы с большими архивами рукописных документов.

Ключевые слова: рукописный текст, поиск, штриховый анализ, сегментация, векторное представление, контрастное обучение, кластеризация.

Интеллектуальный поиск сложных объектов в массивах больших данных

Александр Михайлович Гусенков
40-76
Аннотация: Предложен подход к интеллектуальному поиску сложных объектов в различных типах структурно размеченных текстов, который может быть применен для обработки Больших данных (Big Data). Исследуются два вида представления информационных объектов: реляционные базы данных (РБД), которые структурно размечены своими схемами, и полнотекстовые естественнонаучные документы, содержащие математические выражения (формулы). Для таких полнотекстовых документов предлагается дополнительная автоматизированная разметка для организации поиска формул. В обоих случаях источником информации для построения онтологии и, в дальнейшем, организации поиска являются тексты на естественном языке, которые относятся к слабоструктурированным данным. Для РБД это комментарии к наименованиям таблиц и их атрибутов, а для естественнонаучных документов (статей, монографий и т. д.) – текстовое содержимое размеченных документов.
Ключевые слова: большие данные, семантический поиск, слабоструктурированные данные, онтологии, реляционные базы данных, естественнонаучные тексты, разметка математических выражений.

Рекомендательная система текстовой аналитики юридических документов

Денис Сергеевич Зуев, Марат Фаритович Насрутдинов, Айрат Фаридович Хасьянов
435-449
Аннотация:

Обсуждено использование механизмов машинного обучения, анализа естественного языка и интеллектуального поиска в области юриспруденции. Основные ожидаемые результаты – методология применения алгоритмов текстовой аналитики и семантического анализа естественного языка (NLP) в задачах управления знаниями в судебном делопроизводстве, а также других видах юридической практики. Полученные результаты могут быть применены в области образования и управления знаниями в более широком контексте, поскольку исследование лежит на стыке юриспруденции, математической и компьютерной лингвистики.

Описан прототип многоагентной системы интеллектуального анализа текстов в юриспруденции, способной на имеющейся базе данных судебных документов выявлять общие зависимости, предоставлять для ознакомления юридические дела, близкие по тематике, рекомендовать наиболее вероятные исходы судебного рассмотрения или помечать важные места, на которые следует обращать внимание при процессуальных действиях с использованием инструментов текстовой аналитики.
Ключевые слова: аналитика и управление данными, интенсивное использование данных, электронные библиотеки, кластеризация, классификация судебных актов, рекомендательная система, микросервисная архитектура.

Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов

Олег Юрьевич Бахтеев, Маргарита Валерьевна Кузнецова, Алексей Владимирович Романов, Юрий Викторович Чехович
298-304
Аннотация: Работа посвящена описанию метода детектирования искусственных и ненаучных текстов в коллекции научных статей. Предлагаемый метод основан на лексическом и морфологическом анализе проверяемого документа, позволяющем оценить вероятность его принадлежности к классу научных документов. Эксперименты подтверждают возможность практического применения метода.
Ключевые слова: обработка естественного языка, классификация документов, анализ текстов, статистические языковые модели, детектирование искусственных текстов.

Результаты исследований по обнаружению заимствований с использованием анализа цитирований

Вадим Николаевич Гуреев, Николай Алексеевич Мазов
322-331
Аннотация:

Переводной плагиат как одна из наиболее распространенных в научном информационном пространстве разновидностей плагиата представляет собой трудноразрешимую проблему, поскольку практически не поддается автоматизированному выявлению. Между тем за последние пять лет в этом направлении наблюдается прогресс. Авторами настоящей работы, а также группой зарубежных исследователей из нескольких университетов независимо друг от друга был предложен подход к выявлению плагиата на основе анализа цитирований, при котором для анализируемой подозрительной публикации находится возможный первоисточник с идентичным или схожим списком цитируемой литературы, что в итоге позволяет сличать текст на разных языках. Разработанная методика обнаружения неправомерных заимствований в научных текстах успешно прошла тестовые исследования. В статье приведены результаты четырехлетних исследований.

Ключевые слова: обнаружение заимствований, переводной плагиат, выявление плагиата, анализ цитирования, база данных цитирований.

Формирование расширенных поисковых запросов на основе тезауруса предметной области в онтологии знаний семантической библиотеки

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова
271-291
Аннотация: Обсуждены возможности расширения поискового запроса при наличии тезауруса предметной области. Роль контекста, задаваемого связями терминов тезауруса, заключается как в уточнении запроса, так и в увеличении масштабов выборки по запросу. Особое значение процесс расширения запроса имеет для научных предметных областей, где поиск опирается на специальную терминологию. В этом случае необходимо использовать тезаурусы предметных областей, чтобы минимизировать появление информационного шума. Предлагаемый подход позволяет учитывать особенности применения аналогичной терминологии в различных предметных областях. Примеры использования тезауруса отдельных разделов уравнений математической физики и смежных областей демонстрируют эффективность выбранного подхода исследований. Благодаря связям с понятиями информационных ресурсов других областей знаний, расширение информационного запроса захватывает поисковые поля отдаленных предметных областей и различных типов данных, текстов, символьных, звуковых и видеоархивов. Исследования показали, что расширение запроса на основе семантики контекста улучшает качество поиска научных публикаций в цифровой информации и повышает эффективность научных междисциплинарных исследований.
Ключевые слова: сравнение научных текстов, семантический поиск, тезаурус для онтологии знаний, информационный запрос с помощью тезауруса, семантические библиотеки.

Система тестирования контроллеров, основанная на распознавании текста на экране

Александр Александрович Докукин
1368-1384
Аннотация:

Описано решение задачи тестирования контроллеров на основе чтения информации с их экрана. Для этого разработана программно-аппаратная система, состоящая из камеры и программных модулей, реализующих необходимые алгоритмы и методы: модуля предобработки изображения; модуля определения типа меню; модуля обработки символов шрифта; модуль чтения текста, в том числе, написанного различными шрифтами; собственно модуля тестирования. Система реализована для контроллеров определенного типа с монохромным дисплеем 128 х 64 точек. Все методы реализованы на языке Python с использованием популярных библиотек. Система внедрена в эксплуатацию и на данный момент осуществляет автоматизацию нескольких наиболее трудоемких тестов. Поддерживается расширение их набора в виде плагинов.

Ключевые слова: компьютерное зрение, распознавание текста, тестирование контроллеров.

Создание генератора псевдослов и классификация их схожести со словами словаря русского языка методами машинного обучения

Кирилл Алексеевич Ромаданский, Артемий Евгеньевич Ахаев, Тагмир Радикович Гилязов
145-162
Аннотация:

Под псевдословом понимается единица речи или текста, которая выглядит как реальное слово на русском языке, но на самом деле не имеет значения, а под настоящим или естественным словом – единица речи или текста, которая имеет толкование и представлена в словаре. Представлены две модели для работы с русским языком: генератор псевдослов и классификатор, оценивающий степень схожести введенной последовательности символов с настоящими словами. Классификатор использован для оценки результатов генератора. Обе модели основаны на рекуррентной нейронной сети с долгой краткосрочной памятью и обучены на датасете существительных русского языка. В результате создан файл, содержащий список сгенерированных псевдослов, оцененных классификатором. Псевдослова могут найти применение в задачах нейминга, брендирования и макетирования, в искусстве, для создания креативных произведений, и в языковых исследованиях, для изучения структуры языка и слов.

Ключевые слова: генерация слов, псевдослово, нейронная сеть, рекуррентная нейронная сеть, долгая краткосрочная память.

Атрибуция архивных рукописных писем с использованием сиамских нейронных сетей

Наталия Михайловна Пронина
1454-1480
Аннотация:

Предложен метод автоматической атрибуции архивных рукописных писем на основе сиамской нейронной сети, решающий ключевую проблему цифровой гуманитаристики – установление авторства исторических документов. Актуальность исследования обусловлена массовой оцифровкой архивов XVII–XIX вв., атрибуция которых затруднена из-за неполных исходных сведений об авторах.


Метод адаптирован к работе с реальным корпусом текстов и учитывает характерные для архивов проблемы: некачественные оцифровки, значительную вариативность почерка и выраженный дисбаланс классов (от 1 до 50 и более образцов на автора). Применение сиамской архитектуры позволяет получать дискриминативные векторные представления, эмбеддинги, на основе которых выполняется не только классификация документов известных авторов, но и эффективно выявляются рукописи, не принадлежащие ни одному из них. Это сужает круг кандидатов для последующей экспертной проверки.


Представлен алгоритм предобработки данных и проведено сравнительное исследование двух подходов к анализу текста: на уровне фрагментов изображения (300 × 300 пикселей) и уровне отдельных строк. Разработанный инструмент предлагает архивным работникам и филологам эффективное решение для предварительной сортировки и атрибуции крупных массивов рукописных документов.

Ключевые слова: сиамская нейронная сеть, идентификация, верификация, атрибуция, рукописный текст, архивные документы, сверточная нейронная сеть, рекуррентная нейронная сеть.

Реконструкция трехмерной модели человека по единственному изображению

Александр Сергеевич Тарасов, Влада Владимировна Кугуракова
485-504
Аннотация:

Статья посвящена подходам к обработке изображения для успешной реконструкции трехмерной модели человека, создаваемой методом неявной функции с выравниванием по пикселам, представленном FaceBook Research. Выявлены недостатки работы метода, связанные с ограничением качества исходного изображения, представлены рекомендации, позволяющие избежать его некорректной работы и предложены подходы улучшения исходного изображения, увеличивающие в 1,33 раза идентичность получаемой модели. Также была отработана тактика последующего наложения текстуры и внедрения набора анимаций.

Ключевые слова: распознавание лиц, реконструкция лиц, реконструкция фигуры, модель человека, метод неявной функции с выравниванием по пикселам, нейронная сеть.

Гибридная система программирования для учебных исполнителей на Python

Миля Вячеславовна Райко
398-414
Аннотация:

Рассмотрена методика разработки учебных формальных исполнителей с использованием комбинированного пиктограммно-текстового интерфейса на языке программирования Python. Актуальность исследования обусловлена необходимостью совершенствования подходов к обучению алгоритмизации и программированию в школьном курсе информатики. Представлен разработанный инструментарий для создания формальных исполнителей, сочетающий наглядность пиктограмм с возможностями текстового программирования. Особое внимание уделено практическим аспектам реализации, включая использование встроенных методов Python для обработки графических и текстовых данных.

Ключевые слова: формальный исполнитель, визуализация, программирование, пиктограммный интерфейс, Python.

Алгоритм определения переводов статей с использованием статистических данных

Александр Сергеевич Козицын, Сергей Александрович Афонин, Андрей Александрович Зензинов
494-505
Аннотация: В настоящее время происходит активное внедрение наукометрических систем для автоматизации процесса анализа эффективности деятельности научных организаций с целью применения различных методов стимулирования научной деятельности. Одними из наиболее важных индикаторов являются количество публикаций и их цитируемость. Для оценки этих показателей необходимы средства автоматизированного построения связей между оригинальными статьями и их переводами. В настоящей работе проанализированы существующие методы оценки близости оригинального текста и его возможного перевода, показана их недостаточная эффективность для построения связей между статьями и описаня разработанный авторами метод автоматического поиска переводов статей в больших коллекциях библиографических данных. Особенностью разработанного алгоритма является использование статистических данных о публикации статей в различных журналах и информации о соавторах анализируемых статей. Представленный в настоящей работе алгоритм позволяет осуществлять поиск переводов статей без предварительной настройки на заданные пары языков оригинала и перевода статьи, а также не требует использования больших коллекций обучающих выборок. Апробация программной реализации алгоритма проводилась в наукометрической системе Московского государственного университета (МГУ) им. М.В. Ломоносова. Результаты тестирования показали ее достаточную эффективность и возможность использования разработанного алгоритма для автоматического построения рекомендаций пользователям для отметки в системе переводных версий статей.
Ключевые слова: библиографические данные, анализ графов, перевод, статья, статистика, наукометрия, цитирование, автоматизированные системы.

Методология и технология создания многоцелевой информационной среды T-System на базе электронной библиотеки с гибким полнотекстовым поиском

С.Х. Ляпин, А.В. Куковякин
Аннотация: Описана методология и технология построения многоцелевой информационной среды T-System путем расширения информационной системы T-Libra и предназначенной для интеграции ресурсов и сервисов, характерных для электронной библиотеки с гибким полнотекстовым поиском, виртуального музея, электронного архива, исследовательской лаборатории, образовательного сервера. Методологической основой интеграции является гибридная двухуровневая онтология, основанная на взаимодействии функциональных систем (верхний уровень), библиотеки концептов и библиотеки тезаурусов (нижний уровень). Технологической основой – унифицированная поисковая система, включающая в себя механизм нелинейных каскадных запросов, формирующих соответствующие функциональные системы и соединяющих результаты полнотекстового поиска, релевантные тезаурусы и концепты, текстовые метаданные, а также нетекстовые объекты различной модальности (графика, звук, видео и т.д.). Вся среда проектируется в трехзвенной архитектуре (Веб-браузер / Веб-сервер + Сервер приложений / Cервер баз данных), с использованием специальной системы индексации для повышения эффективности поиска, а также внешней логики, встроенной в сервер приложений и обеспечивающей совместимость с различными СУБД.

Применение методов машинного обучения для повышения качества тестов

Рамиль Радикович Минюков, Михаил Михайлович Абрамский
701-717
Аннотация:

Работа посвящена применению методов машинного обучения для повышения качества тестов. Проведен обзор предметной области и реализованы два метода повышения качества: поиск похожих вопросов и оценка качества дистракторов. Первый включает тестирование пяти моделей трансформеров для получения векторного представления текста и шесть алгоритмов кластеризации. Второй метод основан на использовании тех же моделей трансформеров совместно с тремя алгоритмами классификации. Результаты экспериментов показали высокую эффективность предложенных решений при решении обеих задач.

Ключевые слова: анализ тестовых вопросов, дистракторы, машинное обучение, прохождение тестов, тесты, повышение качества тестов.

Применение методов компьютерного зрения к распознаванию старотатарского текста

Искандер Айратович Валишин
448-477
Аннотация:

Разработан инструмент, распознающий строки, слова и арабские символы с отсканированного изображения. Рассмотрены возможности и перспективы применения инструмента в исследовательской деятельности. Приведены результаты экспериментов по проверке работоспособности инструмента на примере старотатарских оцифрованных произведений.

Ключевые слова: YOLO, распознавание арабских символов, нейронные сети, компьютерное зрение.

Идентификация авторов в рамках предметной области в семантической библиотеке

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова
198-217
Аннотация:

Рассмотрены особенности задачи идентификации авторов и определения авторского вклада в публикации в цифровых библиографических коллекциях. Особенности проблемы недостаточной идентификации проявляются в повторах информации, двойниковании, наличии авторов с полностью совпадающими именами, самоцитировании, автоплагиате и собственно плагиате. Предлагается использовать информацию о публикациях, которая уже накоплена в цифровой библиотеке в виде связанных данных предметной области и множества данных тезауруса адресата, как автора и пользователя библиотеки. Эта информация содержит связи, благодаря которым для идентификации авторства можно использовать контексты ключевых слов, множества соавторов и ассоциативные связи терминов в словарях и тезаурусах. Важно, что рассматривается массив научных публикаций, поскольку они имеют сложившуюся традиционную структуру, что позволяет сравнивать фиксированные элементы текста (аннотации, ключевые слова, коды классификаторов и т. д.). Таким образом, даже при полном совпадении имен в публикациях можно ставить вопрос об авторстве, если в цифровой библиотеке публикации соответствуют различным предметным областям. Разрешение таких противоречий осуществляется путем оценки множества связей всех элементов вторичной информации о публикации. Результатом сравнения может быть добавление автора в некоторую предметную область, т. е. расширение тезауруса адресата и персонального тезауруса автора, или появление в библиотеке полных тезок, но из разных областей знаний. Показано, что современные средства анализа данных позволяют оценить вклад автора в публикацию, несмотря на то, что конечно, реальный вклад в научное исследование может оценить только научное сообщество.

Ключевые слова: сравнение научных текстов, семантический поиск, тезаурус для онтологии знаний, информационный запрос с помощью тезауруса, семантические библиотеки, способы идентификации авторов, тезаурус адресата, вторичная информация, частотный словарь индивидуума, LibMeta.

Формирование структурированных представлений научных журналов для интеграции в граф знаний и семантического поиска

Ольга Муратовна Атаева, Михаил Геннадьевич Кобук
1306-1323
Аннотация:

Работа посвящена проблеме развития библиотеки научных предметных областей SciLibRu, как продолжения семантического описания научных трудов проекта LibMeta. В основе этой библиотеки лежит концептуальная модель данных, структура и семантика которой сформированы на принципах онтологического моделирования. Такой подход обеспечивает строгое описание предметной области, формализацию взаимосвязей между сущностями и возможность дальнейшего автоматизированного анализа данных. Целью настоящего исследования были разработка и экспериментальное применение методов структуризации содержимого научных журналов в формате LaTeX для их интеграции в онтологию библиотеки и обеспечения семантического поиска.


Предложен алгоритм трансляции в формат XML данных, представленных множеством файлов, для интеграции в онтологию библиотеки. Реализован модуль векторного поиска, основанный на вычислении эмбеддингов с использованием языковых моделей. Выявлены закономерности распределения эмбеддингов и факторы, влияющие на точность ранжирования результатов поиска. Проведено тестирование двух названых компонентов.


Разработанный метод составляет основу для автоматического включения содержимого научных журналов в граф знаний SciLibRu и создания обучающих корпусов для языковых моделей, ограниченных рамками научных предметных областей. Полученные результаты способствуют развитию систем навигации по графу знаний журналов, а также рекомендательных механизмов и инструментов интеллектуального поиска по русскоязычным научным текстам.

Ключевые слова: полуструктурированные данные, онтология текста, LaTeX, векторное представление текста, полнотекстовый поиск, семантический поиск.

Автоматические и полуавтоматические методы построения графа знаний предметной области и расширения онтологии

Андрей Петрович Халов, Ольга Муратовна Атаева
1481-1519
Аннотация:

Рассмотрен цикл построения графа знаний и расширения онтологии для специальной предметной области, описывающей процесс управления потоками данных в службах информационной поддержки. Предложена методика формирования корпуса данных для наполнения онтологии с автоматической псевдоразметкой, включающей специальные категории для фиксации ранее не представленных классов и отношений. Обучена специализированная модель извлечения именованных сущностей на корпусе данных объемом 3 млн токенов с 92 метками. Результаты были использованы для интеграции извлеченных фактов, что увеличило граф знаний до 0.98 млн триплетов, при этом коэффициент расширения графа (отношение общего числа фактов к явным триплетам) увеличился с 2.65 до 3.52 при сохранении логической согласованности. Наборы токенов с одинаковыми метками были преобразованы в устойчивые семантические множества, что позволило полуавтоматически расширить онтологию. В онтологию добавлены 12 новых классов, которые были извлечены из неструктурированных текстовых данных. Показан прикладной пример запросов и дальнейшей аналитики.

Ключевые слова: онтология, DOLCE, граф знаний, NER, BIO-разметка, RDF/OWL, SPARQL.
1 - 24 из 24 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2026 Казанский (Приволжский) федеральный университет; Институт развития информационного общества