• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Результаты исследований по обнаружению заимствований с использованием анализа цитирований

Вадим Николаевич Гуреев, Николай Алексеевич Мазов
322-331
Аннотация:

Переводной плагиат как одна из наиболее распространенных в научном информационном пространстве разновидностей плагиата представляет собой трудноразрешимую проблему, поскольку практически не поддается автоматизированному выявлению. Между тем за последние пять лет в этом направлении наблюдается прогресс. Авторами настоящей работы, а также группой зарубежных исследователей из нескольких университетов независимо друг от друга был предложен подход к выявлению плагиата на основе анализа цитирований, при котором для анализируемой подозрительной публикации находится возможный первоисточник с идентичным или схожим списком цитируемой литературы, что в итоге позволяет сличать текст на разных языках. Разработанная методика обнаружения неправомерных заимствований в научных текстах успешно прошла тестовые исследования. В статье приведены результаты четырехлетних исследований.

Ключевые слова: обнаружение заимствований, переводной плагиат, выявление плагиата, анализ цитирования, база данных цитирований.

Использование методов тематического анализа в наукометрических системах

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев
315-338
Аннотация:

Во многих современных наукометрических системах и системах цитирования представлены различные механизмы тематического поиска и тематической фильтрации информации. В большинстве случаев для тематического анализа статей и журналов используется полнотекстовый подход, который имеет ряд ограничений. Использование алгоритмов, основанных на анализе графов как автономно, так и совместно с полнотекстовыми алгоритмами, позволяет устранить эти ограничения и улучшить полноту и точность тематического поиска. Алгоритм, разработанный авторами и представленный в этой работе, использует для анализа тематической близости журналов граф соавторства. Алгоритм нечувствителен к языку журнала и подбирает похожие журналы на разных языках, что сложно реализуемо для алгоритмов, основанных на анализе полнотекстовой информации. Апробация алгоритма проводилась в наукометрической системе ИАС ИСТИНА. В интерфейсе, разработанном для этих целей, пользователь может выбрать один близкий ему по тематике журнал, и система автоматически сформирует подборку журналов, которые могут представлять интерес для пользователя как с точки зрения изучения имеющихся в них материалов, так и с точки зрения публикации собственных статей. В перспективе разработанный алгоритм можно адаптировать для поиска похожих по тематике конференций, сборников публикаций и научных проектов. Наличие такого инструмента увеличит публикационную активность молодых сотрудников, повысит цитируемость статей и цитируемость между журналами. Результаты работы алгоритма определения тематической близости между журналами, сборниками, конференциями и научными проектами также могут использоваться для построения правил в моделях разграничения доступа к данным на основе онтологий предметной области.

Ключевые слова: тематическая классификация, библиографические данные, граф соавторства, информационные системы.

Описание контекстно-свободных грамматик в формате данных JSON для генераторов синтаксических анализаторов

Олег Константинович Осипов
1301-1323
Аннотация:

Рассмотрены варианты представления контекстно-свободных грамматик, предлагаемые средствами генерации синтаксических анализаторов. Приведён анализ существующих решений. Предложен новый формат описания грамматики. Дано описание грамматики в виде JSON-документа. Разработана концепция нового генератора, основанная на формате данных JSON для контекстно-свободных грамматик. Описана схема построения анализатора на основе концепции.

Ключевые слова: JSON-документ, контекстно-свободные грамматики, лексема, форма Бэкуса-Наура, дерево разбора, терминальные символы (токены), конечный детерминированный автомат, парсер, Parglare, ANTLR.

Рекомендательная система текстовой аналитики юридических документов

Денис Сергеевич Зуев, Марат Фаритович Насрутдинов, Айрат Фаридович Хасьянов
435-449
Аннотация:

Обсуждено использование механизмов машинного обучения, анализа естественного языка и интеллектуального поиска в области юриспруденции. Основные ожидаемые результаты – методология применения алгоритмов текстовой аналитики и семантического анализа естественного языка (NLP) в задачах управления знаниями в судебном делопроизводстве, а также других видах юридической практики. Полученные результаты могут быть применены в области образования и управления знаниями в более широком контексте, поскольку исследование лежит на стыке юриспруденции, математической и компьютерной лингвистики.

Описан прототип многоагентной системы интеллектуального анализа текстов в юриспруденции, способной на имеющейся базе данных судебных документов выявлять общие зависимости, предоставлять для ознакомления юридические дела, близкие по тематике, рекомендовать наиболее вероятные исходы судебного рассмотрения или помечать важные места, на которые следует обращать внимание при процессуальных действиях с использованием инструментов текстовой аналитики.
Ключевые слова: аналитика и управление данными, интенсивное использование данных, электронные библиотеки, кластеризация, классификация судебных актов, рекомендательная система, микросервисная архитектура.

Учёт структуры документа в методе автоматического аннотирования математических понятий в образовательных текстах

Константин Сергеевич Николаев
558-577
Аннотация:

Обогащение образовательных текстов семантическим содержимым (в частности, дополнение документа гиперссылками на страницы сервиса, отображающего подробную информацию о понятиях, используемых в тексте) способствует повышению эффективности усвоения материала обучающимися. Существующие методы семантической разметки образовательных текстов не учитывают структурные особенности таких документов, что приводит к избыточному распознаванию понятий.


В статье описано развитие метода автоматического аннотирования математических понятий в образовательных математических текстах путем добавления функционала для учета структуры образовательного документа. Основное назначение метода заключается в обработке образовательных материалов курса дистанционного образования «Технология решения планиметрических задач». Соблюдение единого шаблона при создании страниц курса позволяет применить анализ веб-разметки страниц и ключевых слов, примененных создателями курса. Основной задачей в данном процессе является определение типа ячеек таблицы, в которых находятся текстовые фрагменты образовательных материалов. В соответствии с рекомендациями создателей курса, определения необходимо выделять в ячейках, содержащих постановку задачи, а также в тех блоках, где указаны входные данные задачи. Определение типа ячеек таблиц производится с помощью анализа их атрибутов и поиска ключевых слов в их содержимом. Такое ограничение распознаваемых фрагментов текста позволяет улучшить восприятие страниц курса учеником и повысить качество усвоения учебного материала.

Ключевые слова: семантический анализ, математическая онтология, дидактические отношения, математическое образование, разметка документа.

Анализ моделей векторных представлений слов в задаче разметки семантических ролей в русскоязычных текстах

Лейсан Маратовна Кадермятова, Елена Викторовна Тутубалина
1026-1043
Аннотация: Изучено влияние использования векторных представлений слов на качество установления семантических ролей в русскоязычных текстах. Задача установления семантических ролей в русскоязычных текстах получила широкое распространение после выхода на свет корпуса FrameBank. Были исследованы модели векторных представлений слов word2vec, fastText и ELMo (Embeddings from Language Models). Анализировались метрики качества микро- и макро-F1 как оценочные показатели результатов автоматической разметки актантов. Был проведен ряд экспериментов, демонстрирующих, что модели ELMo, основанные на токенах предикатно-аргументных конструкций, показывают больший прирост качества по сравнению со всеми остальными моделями, в том числе, в сопоставлении с моделями ELMo, обученными на леммах, как по величине микро-F1, так и по величине макро-F1.
Ключевые слова: машинное обучение, обработка естественного языка, векторные представления слов, семантические роли.

Преподавание математических дисциплин с использованием цифровой образовательной платформы Мирера

Александр Георгиевич Леонов
312-323
Аннотация:

Изложен опыт цифровой трансформации математических дисциплин на базе авторской цифровой образовательной платформы (ЦОП) Мирера. ЦОП Мирера оптимизирована на российскую систему организации высшего образования, ориентирована на разработку и проведение курсов, в которых сочетаются онлайн- и оффлайн-технологии проведения учебного процесса. ЦОП Мирера предоставляет авторам курсов инструменты разработки компьютеризированных курсов с автоматизированной проверкой правильности и самостоятельности выполненных обучаемыми текущих и контрольных заданий с помощью методов искусственного интеллекта. В платформу встроены различные оригинальные типы тестов, поддерживающие как в описании задач, так и в вариантах ответов, контент в различных форматах, включая формульные фрагменты в TeX-нотации, последовательности элементов (для автоматизированной проверки знания студентом структуры доказательства теорем курса или схем решения типовых задач), смысловой анализ текстовых ответов и т. п.

Ключевые слова: адаптивное обучение, цифровая образовательная платформа, ЦОП Мирера, программирование, web-приложения.

Перспективы роста производительности параллельных вычислений с помощью технологии субинтерпретаторов в Python

Роман Дмитриевич Синицын
432-453
Аннотация:

Рассмотрена проблема влияния глобальной блокировки интерпретатора на производительность многопоточных приложений в Python. Описана концепция субинтерпретаторов как одного из решений, позволяющих обходить ограничения GIL и обеспечивать эффективное параллельное выполнение кода. Проведен сравнительный анализ субинтерпретаторов с традиционными методами параллельных вычислений, такими как использование процессов и потоков. Результаты экспериментов показали, что субинтерпретаторы значительно повышают производительность в условиях высоких вычислительных нагрузок. Кроме того, исследованы возможности применения субинтерпретаторов в веб-разработках. Отмечены преимущества использования названного подхода для обработки запросов и управления ресурсами в современных веб-приложениях, что может значительно улучшить их масштабируемость и отклик. Новизна проведенного исследования заключается в глубоком анализе субинтерпретаторов в контексте конкретных сценариев использования, что ранее не получило достаточного освещения в научной литературе. Результаты работы подчеркивают необходимость дальнейшего изучения субинтерпретаторов как альтернативного подхода в Python и интерес к этому разработчиков и исследователей в области высокопроизводительных вычислений.

Ключевые слова: Python, CPython, PEP, GIL, субинтерпретатор, многопоточность, многопроцессорность, асинхронность, интерпретатор, параллельные вычисления.

Cемантическое аннотирование математических формул в PDF-документах

Ольга Авенировна Невзорова, Константин Сергеевич Николаев
616-639
Аннотация:

Дан обзор существующих решений по семантическому анализу математических документов, а также описан метод автоматического семантического анализа документов, представленных в формате PDF. Разработанный метод позволяет выделять математические формулы внутри документа, анализировать их структуру, выполнять поиск локальных переменных формулы и их определений в документе, а также связывать переменные формулы и понятия из онтологии. Преимуществом разработанного метода перед другими существующими является независимость от разметки исходного PDF-документа, что расширяет область применения метода. Приведены оценки полноты, точности и F-меры для алгоритмов поиска переменных и связывания локальных переменных с формулами. Полученная семантическая разметка документа позволяет создавать коллекции документов, пригодных для сервиса семантического поиска формул, который является одним из сервисов цифровой библиотеки Lobachevskii-DML.

Ключевые слова: семантический анализ, PDF, обработка документов, научные журналы, Lobachevskii-DML.

Автоматическая разметка обучающих выборок в компьютерном зрении с использованием методов машинного обучения

Алексей Константинович Журавлёв, Карен Альбертович Григорян
718-729
Аннотация:

Рассмотрена проблема автоматической разметки обучающих выборок в области компьютерного зрения с использованием методов машинного обучения.


Разметка данных является ключевым этапом в разработке и обучении моделей глубокого обучения, однако процесс создания размеченных данных зачастую требует значительных временных и трудовых затрат. В статье предложен механизм автоматической разметки, основанный на использовании сверточных нейронных сетей и методов активного обучения.


Предложенная методология включает анализ и оценку существующих подходов к автоматической разметке. Эффективность предложенных решений оценена на общедоступных наборах данных. Результаты показали, что предложенный метод в значительной мере сокращает время, необходимое для разметки данных, но в любом случае требует вмешательства оператора-разметчика.


Обзор литературы включает анализ современных методов разметки и существующих автоматических систем, что позволяет лучше понять контекст и преимущества предлагаемого подхода. В заключении обсуждены достижения, ограничения и возможные направления для будущих исследований в данной области.

Ключевые слова: компьютерное зрение, машинное обучение, автоматическая разметка данных, обучающая выборка, сегментация изображений.

Программное средство оптимизации процессов видеопроизводства

Рустем Фаридович Давлетшин, Ирина Сергеевна Шахова
478-502
Аннотация:

Предложены программные механизмы, направленные на оптимизацию процессов видеопроизводства для авторов художественных видеоматериалов – материалов, предполагающих предварительную постановочную работу. Разработан механизм создания анимированных трехмерных планов съемки (раскадровок) с использованием дополненной реальности для позиционирования и анимации перемещения актеров. С целью преодоления ограничений операционной системы iOS, связанных с доступом к сенсорам, разработан механизм раздельного захвата аудио- и видеопотоков с датчиков устройства для проведения записи, а также их последующей синхронизации по временным меткам для сохранения в память устройства. Отслеживание соблюдения правил композиционного построения и анализ качества изображения на предмет расфокусировки камеры реализованы с использованием технологий компьютерного зрения. Также представлены механизмы работы со сценарием, включающие алгоритмы обработки текста для вывода на экран в виде субтитров, а также распознавания речи актеров и сравнения её с текстом сценария.

Ключевые слова: видеопроизводство, мобильное кино, дополненная реальность, раскадровка, видеозапись, автоматизация, программное решение.

Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов

Олег Юрьевич Бахтеев, Маргарита Валерьевна Кузнецова, Алексей Владимирович Романов, Юрий Викторович Чехович
298-304
Аннотация: Работа посвящена описанию метода детектирования искусственных и ненаучных текстов в коллекции научных статей. Предлагаемый метод основан на лексическом и морфологическом анализе проверяемого документа, позволяющем оценить вероятность его принадлежности к классу научных документов. Эксперименты подтверждают возможность практического применения метода.
Ключевые слова: обработка естественного языка, классификация документов, анализ текстов, статистические языковые модели, детектирование искусственных текстов.

Использование семантического поиска для выбора и ранжирования научных геологических публикаций

Михаил Иванович Патук, Вера Викторовна Наумова
758-773
Аннотация:

Агрегирование научной информации играет важную роль для комплексного анализа геологических объектов. В настоящей работе мы рассматриваем потенциал и возможности семантического поиска для выбора тематически близких геологических публикаций. Проанализированы различные языковые модели в контексте нахождения сходства и различия между текстами при описании месторождений полезных ископаемых. Показано значительное улучшение результатов поиска после дополнительной тренировки языковых моделей. Представлены два веб-сервиса, основанных на методе расчета семантической близости текстов с количественной оценкой меры близости.

Ключевые слова: искусственный интеллект, машинное обучение, обработка естественного языка, семантический поиск, геология.

Идентификация авторов в рамках предметной области в семантической библиотеке

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова
198-217
Аннотация:

Рассмотрены особенности задачи идентификации авторов и определения авторского вклада в публикации в цифровых библиографических коллекциях. Особенности проблемы недостаточной идентификации проявляются в повторах информации, двойниковании, наличии авторов с полностью совпадающими именами, самоцитировании, автоплагиате и собственно плагиате. Предлагается использовать информацию о публикациях, которая уже накоплена в цифровой библиотеке в виде связанных данных предметной области и множества данных тезауруса адресата, как автора и пользователя библиотеки. Эта информация содержит связи, благодаря которым для идентификации авторства можно использовать контексты ключевых слов, множества соавторов и ассоциативные связи терминов в словарях и тезаурусах. Важно, что рассматривается массив научных публикаций, поскольку они имеют сложившуюся традиционную структуру, что позволяет сравнивать фиксированные элементы текста (аннотации, ключевые слова, коды классификаторов и т. д.). Таким образом, даже при полном совпадении имен в публикациях можно ставить вопрос об авторстве, если в цифровой библиотеке публикации соответствуют различным предметным областям. Разрешение таких противоречий осуществляется путем оценки множества связей всех элементов вторичной информации о публикации. Результатом сравнения может быть добавление автора в некоторую предметную область, т. е. расширение тезауруса адресата и персонального тезауруса автора, или появление в библиотеке полных тезок, но из разных областей знаний. Показано, что современные средства анализа данных позволяют оценить вклад автора в публикацию, несмотря на то, что конечно, реальный вклад в научное исследование может оценить только научное сообщество.

Ключевые слова: сравнение научных текстов, семантический поиск, тезаурус для онтологии знаний, информационный запрос с помощью тезауруса, семантические библиотеки, способы идентификации авторов, тезаурус адресата, вторичная информация, частотный словарь индивидуума, LibMeta.

Определение тематической близости научных журналов и конференций с использованием анализа графа соавторства

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев
514-525
Аннотация: Количество публикуемых в мире журналов очень велико. В этой связи, необходим программный инструментарий, который позволит анализировать тематические связи журналов. Разработанный авторами и представленный в этой работе алгоритм использует для анализа тематической близости журналов граф соавторства. Алгоритм нечувствителен к языку журнала и подбирает похожие журналы на разных языках, что сложно реализуемо для алгоритмов, основанных на анализе полнотекстовой информации. Апробация алгоритма проводилась в наукометрической системе ИАС ИСТИНА. В разработанном для этих целей интерфейсе пользователь может выбрать один близкий ему по тематике журнал, и система автоматически сформирует подборку журналов, которые могут представлять интерес для пользователя как с точки зрения изучения имеющихся в них материалов, так и с точки зрения публикации собственных статей. В перспективе разработанный алгоритм можно адаптировать для поиска похожих по тематике конференций, сборников публикаций и научных проектов. Наличие такого инструмента увеличит публикационную активность молодых сотрудников, повысит цитируемость статей и цитируемость между журналами. Результаты работы алгоритма определения тематической близости между журналами, сборниками, конференциями и научными проектами также могут использоваться для построения правил в моделях разграничения доступа к данным на основе онтологий предметной области.
Ключевые слова: тематическая классификация, библиографические данные, граф соавторства, информационные системы.

Извлечение аспектов товаров или услуг из отзывов потребителей с использованием модели условных случайных полей

Юлия Владимировна Рубцова, Сергей Андреевич Кошельников
203-221
Аннотация: Описана система, принимавшая участие в соревновании SentiRuEval-2015 по автоматическому извлечению аспектов из отзывов и оценке этих аспектов по тональности. В основе разработанной системы лежит алгоритм условных случайных полей (CRF), она использовалась в решении двух подзадач и тестировалась на двух предметных областях: рестораны и автомобили. Для обеих задач и обеих предметных областей показаны высокие показатели метрики полноты. Это означает, что система может вполне успешно находить аспектные термины. Вместе с тем, полученный низкий показатель точности свидетельствует о том, что система принимает за аспектные достаточно много терминов, которые аспектными не являются. В целом же система показала сравнительно хорошие результаты по сравнению с другими участниками соревнования.
Ключевые слова: извлечение знаний, извлечение аспектов, CRF.

Редактор интерактивной структуры для инструмента генерации сценарных прототипов

Гульнара Фаритовна Сахибгареева, Влада Владимировна Кугуракова
1184-1202
Аннотация:

Задача автоматизации рутинной работы сценаристов компьютерных игр, нарративных дизайнеров, поставленная в ранних работах, получила свое продолжение в настоящей работе. Рассмотрены вопросы визуализации разветвленных структур повествования компьютерных игр, проведен анализ различных подходов визуализации сюжета и других важных составляющих видеоигры, выбран технологический стек и приведены конкретные решения для хранения в виде структурированного сценария, позволяющего генерацию продолжения сюжетных веток и тестирование этапа повествовательного прототипирования при помощи автоматически генерируемой текстовой новеллы.

Ключевые слова: интерактивное повествование, компьютерные игры, сценарий игры, визуализация, тональность текста, разветвленные структуры, повествовательное прототипирование, прототип сценария, структурированный сценарий, GPT-2, ruGPT3, python, unity.

Исследование когнитивной функции при генерации эллиптических предложений в планиметрических задачах

Владимир Андреевич Пархоменко, Ксения Александровна Найденова, Татьяна Александровна Мартирова, Александр Валентинович Щукин
316-335
Аннотация:

Работа посвящена изучению когнитивной функции, связанной с генерацией эллиптических предложений в русском языке. Исследование проводилось на основе тестирования этой когнитивной способности с помощью компьютерной системы, специально разработанной авторами для этой цели. Тестирование этой когнитивной способности предложено и реализовано впервые. Система является расширением Moodle и открыто размещена в репозитории github. Эллиптические конструкции ограничиваются глагольными и именными эллипсисами, которые теоретически возможно полностью восстановить на основе контекста предложения. Исследование проводилось с участием в качестве респондентов студентов СПбПУ. В качестве предметной области были выбраны тексты планиметрических задач. В результате анализа данных тестирования получены следующие результаты: установлено влияние знаний респондента предметной области (планиметрии) на результаты тестирования; обнаружена тенденция к самообучению респондентов, что проявляется в сокращении времени и увеличении баллов по мере прохождения тестов; показано, что респонденты слабо мотивированы, если не видят отзыв на ответ по выполненному заданию.


Обсуждены проблемы дальнейшего развития системы тестирования и её применения при адаптации опросников (заданий) для оценки знаний студентов СПбПУ в области автоматизации обнаружения ошибок в программах, а также диагностики функционального состояния специалистов операторского профиля и экспресс-диагностики деменции. Перспективным представляется также применение системы для совершенствования процессов синтаксического разбора эллиптических предложений и автоматизации восстановления эллипсисов в предметной области планиметрии.

Ключевые слова: онлайн-система тестирования, разработка системы тестирования, когнитивная функция, эллипсис, планиметрия.
1 - 18 из 18 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2025 Казанский (Приволжский) федеральный университет; Институт развития информационного общества