Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Определение зависимостей по данным средствами динамического анализа системы SAPFOR

Никита Андреевич Катаев, Александр Андреевич Смирнов, Андрей Дмитриевич Жуков

473-493

Аннотация: Использование указателей и косвенной адресации в программе, а также сложная структура графа потока управления являются одними из основных препятствий при выполнении статического анализа программ. Обнаруженные в результате такого анализа свойства программы слишком консервативно описывают ее поведение и часто оказываются недостаточными для принятия решений о возможности ее параллельного выполнения. Использование динамического анализа программ позволяет расширить возможности средств автоматизации распараллеливания. В системе SAPFOR (System FOR Automated Parallelization) реализован инструмент динамического анализа, опирающийся на инструментацию программ в представлении LLVM, что позволяет исследовать программы на языках C и Fortran. Чтобы снизить накладные расходы на время выполнения инструментированной программы, сохранив при этом полноту проводимого анализа, используются возможности статического анализа, реализованного в SAPFOR. В процессе динамического анализа часть обращений к памяти, информация о которых была получена в процессе статического анализа, может быть проигнорирована. Разработанный инструмент был протестирован на тестах производительности из пакета NAS Parallel Benchmarks для языков C и Fortran. В процессе динамического анализа кроме традиционных видов зависимостей (flow, anit, output) также определяются переменные, зависимость по которым может быть устранена за счет приватизации или конвейерного выполнения циклов. Совместно с возможностями DVM и OpenMP это существенно облегчает, в том числе, и ручное распараллеливание, облегчая задание соответствующих директив компилятора.

Ключевые слова: анализ программ, динамический анализ, автоматизация распараллеливания, SAPFOR, DVM, LLVM.

Методика сетевого анализа научных публикаций

Инна Геннадьевна Ольгина

646-672

Аннотация:

Актуальность вопросов анализа значимости научных публикаций обусловлена тем, что с появлением интернет-технологий стал возможен сбор данных о сети цитирования публикаций. Между тем, существующий сегодня подход к анализу значимости научных публикаций базируется на библиометрических показателях, учитывающих только количество цитирований. Однако все более широкое применение начинает получать сетевой анализ, применяемый преимущественно в исследованиях социальных сетей. Автором разработана методика, позволяющая осуществить эффективный анализ значимости научных публикаций, которая основана на методах сетевого анализа, альтернативных библиометрическим методам. В качестве критериев оценки значимости научных публикаций, основанных на сетевом анализе, установлены релевантные меры центральности узлов сети цитирования: центральность по степени связности; близости к другим узлам; посредничеству; авторитетности; концентрации. Приведен результат эксперимента, позволивший продемонстрировать адекватность разработанной методики анализа научных публикаций на основе сетевых метрик. В качестве первичных источников данных о публикациях использованы наукометрические базы данных, позволяющие отслеживать цитируемость публикаций и выявлять соответствующие сети цитирования. Применение предложенной методики способствует выявлению важных публикаций в развитии соответствующих научных направлений.

Ключевые слова: сеть цитирования, публикации, наукометрия, библиометрический анализ, сетевой анализ, граф.

От составителя

Наталья Валентиновна Лукашевич

86-87

Аннотация:

Настоящий выпуск журнала «Электронные библиотеки» представляет собой тематический сборник статей, посвященный проблеме автоматического анализа тональности текстов на русском языке.

Задача анализ тональности состоит в автоматическом определении отношения автора текста (позитивном, негативном или нейтральном) к объектам и ситуациям, о которых говорится в анализируемом тексте. В настоящее время автоматический анализ тональности используется в самых различных приложениях, включая мониторинг репутации компаний и публичных персон, анализ общественных настроений в том или ином регионе, анализ сообществ в социальных сетях и многое другое.

В данном тематическом выпуске представлены статьи участников открытого тестирования систем анализа тональности на русском языке SentiRuEval, провeденном в 2014–2015 годах. В данном тестировании участникам были предложены для решения две основные задачи.

Результаты исследований по обнаружению заимствований с использованием анализа цитирований

Вадим Николаевич Гуреев, Николай Алексеевич Мазов

322-331

Аннотация:

Переводной плагиат как одна из наиболее распространенных в научном информационном пространстве разновидностей плагиата представляет собой трудноразрешимую проблему, поскольку практически не поддается автоматизированному выявлению. Между тем за последние пять лет в этом направлении наблюдается прогресс. Авторами настоящей работы, а также группой зарубежных исследователей из нескольких университетов независимо друг от друга был предложен подход к выявлению плагиата на основе анализа цитирований, при котором для анализируемой подозрительной публикации находится возможный первоисточник с идентичным или схожим списком цитируемой литературы, что в итоге позволяет сличать текст на разных языках. Разработанная методика обнаружения неправомерных заимствований в научных текстах успешно прошла тестовые исследования. В статье приведены результаты четырехлетних исследований.

Ключевые слова: обнаружение заимствований, переводной плагиат, выявление плагиата, анализ цитирования, база данных цитирований.

Цифровая платформа для интеграции и анализа данных геофизического мониторинга байкальской природной территории

Андрей Павлович Григорюк, Людмила Петровна Брагинская, Игорь Константинович Семинский, Константин Жанович Семинский, Валерий Викторович Ковалевский

303-316

Аннотация:

Представлена цифровая платформа для данных комплексного мониторинга опасных геодинамических, инженерно-геологических и гидрогеологических процессов, протекающих в регионе интенсивного природопользования центральной экологической зоны Байкальской природной территории (ЦЭЗ БПТ). Платформа предназначена для интеграции и анализа данных, поступающих с нескольких полигонов, расположенных в пределах ЦЭЗ БПТ, с целью оценки состояния геологической среды и прогнозирования проявлений опасных процессов. Платформа построена по клиент-серверной архитектуре. Хранение, обработка и анализ данных осуществляются на сервере, к которому пользователи могут обращаться через интернет посредством веб-браузера. Блочная структура сервера позволяет легко расширять набор процедур обработки и анализа данных, а также визуализации результатов. В настоящее время доступны несколько методов фильтрации данных (линейная частотная, Савицкого–Голея и другие), различные методы спектрального и вэйвлет-анализа, мультифрактальный и энтропийный анализ, анализ пространственных данных. Цифровая платформа была опробована на реальных данных.

Ключевые слова: геофизический мониторинг, цифровая платформа, предвестники, сейсмический прогноз, землетрясения.

Информационный анализ делового текста. Стратегии анализа и компоненты анализатора

В.Ш. Рубашкин

Аннотация: Статья посвящена обсуждению общей архитектуры систем информационного анализа делового текста. Обсуждаются три комплекса проблем, решения по которым радикально меняют архитектуру анализатора: определение целевой технологии и с учетом этого выбор целевого языка представления знаний; выбор способа межуровневого взаимодействия компонентов анализатора; определение соотношения структурных (rule-based) и прецедентно-статистических (example-based, case-based, corpus-based) моделей в используемых алгоритмах и процедурах анализа.

Ключевые слова: информационный анализ делового текста, компоненты анализатора, архитектура анализатора, целевая технология, целевой язык, фактографическая информация.

Восстановление многомерной формы обращений к линеаризованным массивам в системе SAPFOR

Никита Андреевич Катаев, Владислав Николаевич Василькин

770-787

Аннотация: Система автоматизированного распараллеливания SAPFOR (System FOR Automated Parallelization) включает инструменты для анализа и преобразования программ, основной ее целью является снижение сложности распараллеливания программ. Система SAPFOR ориентирована на исследования многоязыковых вычислительных комплексов, разрабатываемых на языках программирования Фортран и Си. Для анализа программ в этой системе используется низкоуровневое их представление в виде LLVM IR, которое позволяет проводить различные оптимизации с целью повышения качества анализа программ. При этом оно теряет некоторые особенности программы, отражаемые ее представлением на языке высокого уровня. Одной из таких особенностей является многомерная структура используемых массивов. Анализ зависимостей по данным является одним из ключевых при исследовании возможности параллельного выполнения программ. При этом такой анализ относится к классу NP-трудных задач. Знание многомерной структуры массивов позволяет во многих случаях учесть структуру индексных выражений в обращениях к массивам и снизить сложность проводимого анализа. Кроме того, использование многомерных массивов позволяет повысить уровень параллелизма в программе за счет использования многомерных решеток процессоров и распараллеливания гнезд циклов, а не отдельных циклов в гнезде. Данная возможность естественным образом поддерживается в DVM-системе. В настоящей работе рассмотрен подход, применяемый в системе SAPFOR для восстановления формы многомерных массивов и обращений к ним по их линеаризованному представлению в LLVM IR. Предложенный подход был успешно протестирован на различных приложениях, включая тесты производительности из набора NAS Parallel Benchmarks.

Ключевые слова: анализ программ, автоматизация распараллеливания, SAPFOR, DVM, LLVM.

Тестирование методов анализа тональности текста, основанных на словарях

Елена Викторовна Тутубалина, Владимир Владимирович Иванов, Мария Загулова, Никита Мингазов, Ильсеяр Алимова, Валентин Малых

138-162

Аннотация:

Технологии анализа тональности текста развиваются интенсивно, что обусловлено ростом объемов открытых источников, представляющих мнения пользователей интернета по различным вопросам. В статье описаны методы для анализа тональности текстов отзывов и коротких сообщений (твитов), приводятся результаты оценки их качества, которая производилась в рамках российского семинара SentiRuEval-2015.

Ключевые слова: извлечение информации, анализ тональности, классификация текстов, машинное обучение с учителем.

Автоматический анализ тональности текстов по отношению к заданному объекту и его характеристикам

Наталья Валентиновна Лукашевич

88-119

Аннотация:

Статья посвящена рассмотрению подходов к анализу тональности текстов по отношению к заданному объекту, а также его характеристикам (аспектам). Для решения задачи анализа тональности по отношению к характеристикам сущности необходимо решать также задачи извлечения аспектов для сущности, категоризацию или кластеризацию аспектов по аспектным категориям, определение тональности текста по отношению к заданному аспекту или аспектной категории. Также в статье описывается задание по анализу тональности отзывов пользователей в рамках открытого тестирования систем анализа тональности SentiRuEval.

Ключевые слова: анализ тональности, машинное обучение, тематическое моделирование, оценочная лексика, SentiRuEval.

Использование синтаксиса для анализа тональности твитов на русском языке

Юлия Владимировна Адаскина, Полина Вадимовна Паничева, Андрей Михайлович Попов

163-184

Аннотация:

Представлен подход к решению задачи анализа тональности в рамках тестирования SentiRuEval – открытого соревнования систем анализа тональности на русском языке. Описанный алгоритм был применен в дорожке по анализу тональности твитов о банках и телекоммуникационных компаниях. Для этих данных была разработана и оценена классификация на три класса: положительный, отрицательный и нейтральный.

Для решения поставленной задачи использовались различные алгоритмы машинного обучения. Признаками для классификатора являлись лингвистические данные, полученные из текста с помощью разработанного нами морфо-синтаксического анализатора. Нормализованные слова, а также синтаксические связи, оказались решающими признаками для достижения наилучшего результата, который был получен с помощью статистического алгоритма опорных векторов.

Оценка, проведенная организаторами конкурса, выявила высокое качество предложенного подхода, который занял первую строчку по трем из четырех мерам качества.

Ключевые слова: анализ тональности, синтаксические связи, русский язык, статистические методы, классификация текстов.

Сравнительный анализ текстов геологических публикаций с использованием больших языковых моделей

Михаил Иванович Патук, Вера Викторовна Наумова

806-821

Аннотация:

Стремительный рост объема публикаций во всех областях геологических наук делает критически важным внедрение методов автоматизированной обработки научных текстов. Одним из наиболее перспективных инструментов для решения этой задачи выступают большие языковые модели на основе нейронных сетей. Огромный прорыв в области искусственного интеллекта за последние годы превратил такие модели в незаменимых помощников для исследователей.
Наши работы по семантическому поиску публикаций с использованием дополнительно тренированных языковых моделей и нахождения меры близости геологических текстов показали хорошие результаты. Но используемые модели оказались неспособны выполнить глубокий анализ текстов. Сравнительный анализ современных архитектур позволил нам выделить модель DeepSeek R1, относящуюся к классу систем с расширенными возможностями логического вывода. Данный тип моделей демонстрирует принципиально новый уровень качества генерации. На базе выбранной модели разработан веб-сервис, предоставляющий уникальный функционал, осуществляющий сравнительный анализ до 5 научных статей стандартного объема; поддержку мульти язычных источников (ввод текстов на английском, китайском, русском и др. языках); формирование структурированных отчетов на русском языке с выделением ключевых тезисов, противоречий и паттернов. Проведено тестирование предложенного подхода для сравнительного анализа геологических публикаций. Тестирование показало результаты, вызывающие доверие.

Ключевые слова: искусственный интеллект, большие языковые модели, обработка естественного языка, анализ текстов, геология.

Использование методов тематического анализа в наукометрических системах

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев

315-338

Аннотация:

Во многих современных наукометрических системах и системах цитирования представлены различные механизмы тематического поиска и тематической фильтрации информации. В большинстве случаев для тематического анализа статей и журналов используется полнотекстовый подход, который имеет ряд ограничений. Использование алгоритмов, основанных на анализе графов как автономно, так и совместно с полнотекстовыми алгоритмами, позволяет устранить эти ограничения и улучшить полноту и точность тематического поиска. Алгоритм, разработанный авторами и представленный в этой работе, использует для анализа тематической близости журналов граф соавторства. Алгоритм нечувствителен к языку журнала и подбирает похожие журналы на разных языках, что сложно реализуемо для алгоритмов, основанных на анализе полнотекстовой информации. Апробация алгоритма проводилась в наукометрической системе ИАС ИСТИНА. В интерфейсе, разработанном для этих целей, пользователь может выбрать один близкий ему по тематике журнал, и система автоматически сформирует подборку журналов, которые могут представлять интерес для пользователя как с точки зрения изучения имеющихся в них материалов, так и с точки зрения публикации собственных статей. В перспективе разработанный алгоритм можно адаптировать для поиска похожих по тематике конференций, сборников публикаций и научных проектов. Наличие такого инструмента увеличит публикационную активность молодых сотрудников, повысит цитируемость статей и цитируемость между журналами. Результаты работы алгоритма определения тематической близости между журналами, сборниками, конференциями и научными проектами также могут использоваться для построения правил в моделях разграничения доступа к данным на основе онтологий предметной области.

Ключевые слова: тематическая классификация, библиографические данные, граф соавторства, информационные системы.

Семантическое сходство в задаче аспектно-эмоционального анализа

Евгений Вячеславович Котельников, Павел Дмитриевич Блинов

120-137

Аннотация:

Исследуется проблема аспектно-эмоционального анализа текста. По сравнению с общим анализом тональности такой вариант является более сложным по причине наличия ряда сопутствующих подзадач, таких, как выделение аспектных терминов, определение тональности по отношению к этим терминам и аспектным категориям. Однако решение данной проблемы значительно расширяет возможности систем автоматического анализа неструктурированного текста.

Приведен обзор предыдущих работ в области аспектно-эмоционального анализа, описаны обучающие и тестовые данные семинара SentiRuEval. Для задачи извлечения аспектных терминов использовано векторное пространство распределенных представлений слов. Тональность аспектных терминов определяется на основе функций совместной информации и семантического сходства. Приведены сравнительные результаты на тестовых данных и заключительные выводы.

Ключевые слова: аспектно-эмоциональный анализ текста, взаимная информация, распределённые представления слов, машинное обучение, SentiRuEval.

Статистический анализ данных наблюдений потоков взаимодействия океана и атмосферы в северной Атлантике

Наталия Павловна Тучкова, Константин Павлович Беляев, Гурий Михайлович Михайлов

122-133

Аннотация:

Проанализированы данные наблюдений 1979–2018 гг. в районе Северной Атлантики, полученные в результате реализации проекта Российской академии наук по исследованию атмосферы в Северной Атлантике (РАН-НААД). Набор данных предоставляет множество параметров поверхности и свободной атмосферы на основе сигма-модели и отвечает многим требованиям метеорологов, климатологов и океанографов, работающих как в исследовательской, так и в оперативной областях. Проведен анализ сезонной и многолетней изменчивости тепловых потоков и температуры поверхности воды в Северной Атлантике. В качестве основного метода исследования использованы схемы анализа диффузионных процессов. На основе заданных рядов длиной в 40 лет с 1979 по 2018 годы вычислены такие параметры диффузионных процессов, как среднее (снос процесса) и дисперсия (диффузия процесса) и построены их карты и временные кривые. Численные расчеты выполнены на суперкомпьютере Ломоносов-2 Московского государственного университета имени М.В. Ломоносова.

Ключевые слова: УДК 519.6, УДК 519.2.

Cистема поддержки принятия решений при выборе источников информации в сетях цитирования

Инна Геннадьевна Ольгина

76-96

Аннотация:

С появлением науки о сетях стало возможным исследовать сложные сетевые системы, в том числе социальные и информационные, посредством представления их в виде графовых моделей. Рост в геометрической прогрессии общего объема научных публикаций обуславливает актуальность задач анализа их взаимосвязей. В науке о сетях для решения данных задач разрабатываются модели и методы, относящиеся к сфере так называемых сетей цитирования. Однако сетевые метрики не используются при анализе публикаций в базах цитирования.

В работе рассмотрены вопросы создания системы поддержки принятия решений при выборе источников информации на основе данных о цитировании научных публикаций. Разработан программный комплекс для принятия решений по определению важности публикации в определенной тематической области. В основу работы этого программного комплекса заложен метод ранжирования публикаций по важности на основе анализа сетей цитирования, позволяющий выявить публикации, которые явно не выделяются в чистом виде при ранжировании на основе известных библиометрических показателей или известных мер центральности узлов. Проведены исследование и сравнительный анализ программного обеспечения для визуализации и исследования всех видов графов и социальных сетей. Выполнены исследования, подтверждающие эффективность предлагаемой системы поддержки принятия решений при выборе источников информации.

Ключевые слова: сеть цитирования, публикация, наукометрия, система поддержки принятия решений, архитектура программного комплекса, сетевой анализ, граф.

Определение тематической близости научных журналов и конференций с использованием анализа графа соавторства

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев

514-525

Аннотация: Количество публикуемых в мире журналов очень велико. В этой связи, необходим программный инструментарий, который позволит анализировать тематические связи журналов. Разработанный авторами и представленный в этой работе алгоритм использует для анализа тематической близости журналов граф соавторства. Алгоритм нечувствителен к языку журнала и подбирает похожие журналы на разных языках, что сложно реализуемо для алгоритмов, основанных на анализе полнотекстовой информации. Апробация алгоритма проводилась в наукометрической системе ИАС ИСТИНА. В разработанном для этих целей интерфейсе пользователь может выбрать один близкий ему по тематике журнал, и система автоматически сформирует подборку журналов, которые могут представлять интерес для пользователя как с точки зрения изучения имеющихся в них материалов, так и с точки зрения публикации собственных статей. В перспективе разработанный алгоритм можно адаптировать для поиска похожих по тематике конференций, сборников публикаций и научных проектов. Наличие такого инструмента увеличит публикационную активность молодых сотрудников, повысит цитируемость статей и цитируемость между журналами. Результаты работы алгоритма определения тематической близости между журналами, сборниками, конференциями и научными проектами также могут использоваться для построения правил в моделях разграничения доступа к данным на основе онтологий предметной области.

Разработка Веб-ГИС системы для статистического анализа больших архивов пространственно распределенных данных при проведении комплексных геофизических исследований

Е.П. Гордов, И.Г. Окладников, А.Г. Титов

Аннотация: В статье описана разрабатываемая информационно-вычислительная система для проведения научных исследований, связанных со статистическим анализом архивов пространственно-распределенных геофизических данных, полученных как в результате наблюдений, так и моделирования. В процессе реализации использовался накопленный опыт создания информационно-вычислительных веб-систем, обеспечивающих обработку больших массивов данных. Функциональные возможности существующей на данный момент версии системы включают в себя ряд процедур для оперативного математического и статистического анализа, а также визуализации данных, что позволяет оптимизировать выполнение типовых вычислительных задач. В качестве одного из приложений разрабатываемой системы были реализованы программные модули для анализа региональных особенностей динамики основных климатических характеристик и их взаимосвязей, а также для обеспечения графического представления результатов в виде графиков, диаграмм и полей на карте соответствующей территории с использованием Веб-ГИС технологий.

Ключевые слова: комплексные геофизические исследования, пространственно распределенные данные, большие массивы данных, Веб-ГИС технологии, методы математической статистики.

Анализ Russian Science Citation Index c bспользованием данных Math-Net.ru

Знаменская Екатерина Александровна, Печников Андрей Анатольевич, Чебуков Дмитрий Евгеньевич

778-795

Аннотация:

С весны 2022 в России ведется создание национальной системы оценки результативности научных исследований и разработок с использованием базы ведущих российских журналов Russian Science Citation Index (RSCI). В статье изложены некоторые результаты анализа нормированного рейтинга RSCI, опубликованного в декабре 2022 года. С применением графа цитирования журналов, построенного по данным Math-Net.Ru на примере тематической группы OECD 101. Mathematics показано, что при наличии большого количества самоцитирований журналов обнаруживается связь между нормированным рейтингом и количеством ссылок, а связь с учетом самоцитирования несколько сильнее, чем без самоцитирования. Анализ распределения журналов по тематическим группам показывает, что использование в качестве критерия единственного признака, такого как OECD, не позволяет сформировать группу как сообщество журналов, имеющее единственную компоненту сильной связности в графе цитирования. Делается вывод о том, что методы исследования графов цитирования журналов являются хорошей основой для сравнительного анализа характеристик журналов и их ранжирования, а значит, могут быть использованы как инструменты для дальнейшего развития и совершенствования рейтингов журналов.

Ключевые слова: рейтинг журналов, Russian Science Citation Index, Math-Net.Ru, граф цитирования журналов, импакт-фактор, степень влиятельности.

Дальнейшее развитие исследований полей давления в арктическом регионе России

Наталия Павловна Тучкова, Константин Павлович Беляев, Гурий Михайлович Михайлов, Алексей Николаевич Сальников

1217-1232

Аннотация:

Представлены результаты исследований атмосферного давления в Арктическом регионе России в период с 1948 по 2008 годы. Проведен анализ климатического сезонного хода полей атмосферного давления. В качестве основного метода исследования использован вероятностный и статистический анализ временных рядов поля давления длиной в 60 лет в фиксированных точках области Арктической зоны России. Всего было исследовано около 90000 ежедневных (с шестичасовым шагом) значений давления. На основе этих данных построен климатический сезонный ход как осреднение значений данного временного ряда в каждой точке пространства и для фиксированной даты. Изучены характеристики сезонного хода, его амплитуда и фаза. Эти характеристики были проанализированы, проведена их геофизическая интерпретация. В частности, определены минимальное и максимальное значения ряда по всей области и построены временные ряды этих характеристик. Показано, что отклонение носит несимметричный характер, это составляет неочевидный результат исследований. Для максимума и минимума построены наилучшие аппроксимации, и эти аппроксимации протестированы известными методами статистического анализа, включая методы максимального правдоподобия, наименьших квадратов и методы (критерии) согласия, в частности, χ²-критерий. Проведенное исследование имеет приложение как чисто физическое (позволяет объяснить природу, генезис и распространение крупномасштабных атмосферных образований в климатическом году), так и прогностическое (позволяет понять и отследить тенденции в климате, а также количественно оценить масштабы и изменчивость крупномасштабных атмосферных процессов). Численные расчеты выполнялись на суперкомпьютере Ломоносов-2 Московского государственного университета имени М.В. Ломоносова.

Ключевые слова: анализ временных рядов, климатический сезонный ход, максимальные и минимальные значения давления внутри климатического года.

Анализ геоинформационных данных в распределенных инфраструктурах

Е.В. Шулькин, С.М. Краснопеев

Аннотация: В статье рассматривается проблема использования алгоритмов анализа пространственных данных в распределенных инфраструктурах, основанных на стандартах Открытого геопространственного консорциума. Вкратце затрагивается тема публикации алгоритмов анализа в виде исходного кода. Основное внимание уделено изложению нашего понимания о том, какой должна быть клиентская часть веб-сервисов обработки пространственных данных и как может быть организовано взаимодействие конечного пользователя с опубликованными средствами анализа данных.

Ключевые слова: анализ пространственных данных, открытый геопространственный консорциум, инфраструктура пространственных данных, Web Processing Service, WPS, клиент анализа данных.

Описание контекстно-свободных грамматик в формате данных JSON для генераторов синтаксических анализаторов

Олег Константинович Осипов

1301-1323

Аннотация:

Рассмотрены варианты представления контекстно-свободных грамматик, предлагаемые средствами генерации синтаксических анализаторов. Приведён анализ существующих решений. Предложен новый формат описания грамматики. Дано описание грамматики в виде JSON-документа. Разработана концепция нового генератора, основанная на формате данных JSON для контекстно-свободных грамматик. Описана схема построения анализатора на основе концепции.

Ключевые слова: JSON-документ, контекстно-свободные грамматики, лексема, форма Бэкуса-Наура, дерево разбора, терминальные символы (токены), конечный детерминированный автомат, парсер, Parglare, ANTLR.

Анализ распределения ключевых терминов в научных статьях

Светлана Александровна Власова, Николай Евгеньевич Каленов, Ирина Николаевна Соболевская

35-51

Аннотация:

Одними из основных компонентов Единого Цифрового Пространства Научных Знаний (ЕЦПНЗ) являются предметные онтологии отдельных тематических подпространств, включающие в себя основные понятия, относящиеся к данному научному направлению. Задача построения предметных онтологий на первом этапе требует формирования массива ключевых терминов в заданной области науки с последующим установлением связей между ними. Аналогичная задача стоит и при формировании энциклопедий в части определения перечня статей (слотов), определяющего их содержание. Одним из источников формирования массива ключевых терминов могут являться метаданные статей, опубликованных в ведущих научных журналах, а именно, авторские ключевые термины («ключевые слова» – в терминологии редакций журналов), сопровождающие в обязательном порядке эти статьи. Чтобы сделать заключение о возможности использования этого подхода к формированию предметных онтологий, необходимо провести предварительный анализ массива авторских ключевых терминов как с точки зрения реального соответствия основным направлениям исследований в данном разделе науки, так и с точки зрения распределения частоты встречаемости тех или иных терминов. В данной статье приведены результаты частотного анализа встречаемости авторских ключевых терминов на русском и английском языках, проведенного на основе программной обработки нескольких тысяч статей из ведущих российских журналов по математике, информатике и физике, отраженных в базе данных MathNet и на сайтах ряда издательств. Проведена оценка соответствия распределения ключевых терминов (как словосочетаний) и отдельных слов закону Брэдфорда, выявлены ядра ключевых терминов внутри тематических направлений.

Ключевые слова: цифровое пространство научных знаний, предметные онтологии, энциклопедические статьи, ключевые термины, метаданные статей, частотный анализ.

Сигнатурные методы анализа временных рядов

Кирилл Алексеевич Мащенко

681-700

Аннотация:

Сигнатурные методы представляют собой мощный инструмент анализа временных рядов, который преобразует их в форму, удобную для задач машинного обучения. В статье рассмотрены основные понятия сигнатуры пути, ее свойства и геометрический смысл, а также методы вычисления для различных типов временных рядов. Приведены примеры применения сигнатурных методов в различных областях, включая финансы, медицину и образование, продемонстрированы их преимущества перед традиционными подходами. Особое внимание уделено генерации синтетических данных на основе сигнатур, что особенно актуально в условиях ограниченного объема исходных данных. Представлены результаты экспериментальных исследований по генерации и предсказанию траекторий цифрового следа обучения студентов, подтверждающие эффективность сигнатурных методов для применения в задачах машинного обучения по анализу и прогнозированию временных рядов.

Ключевые слова: сигнатура, сигнатурные методы, временные ряды, генерация данных, анализ траекторий, цифровой след.

Исследование устойчивости совместной модели к возмущению начальных данных

Константин Павлович Беляев, Гурий Михайлович Михайлов, Алексей Николаевич Сальников, Наталия Павловна Тучкова

615-633

Аннотация: Задача устойчивости рассматривается в терминах классического определения Ляпунова. Для этого задается множество начальных условий, состоящих их данных предварительных расчетов, и анализируется разброс траекторий, полученных в результате численного моделирования. Эта процедура реализована как серия ансамблевых экспериментов с совместной моделью MPI-ESM института метеорологии М. Планка (Германия). Для численного моделирования задавалась серия различных начальных значений полей характеристик, и модель интегрировалась, начиная с каждого из этих полей, на различные временные периоды. Изучались экстремальные характеристики уровня океана за период 30 лет. Строилось их статистическое распределение, оценивались параметры этого распределения, изучался статистический прогноз на 5 лет вперед. Показано, что статистический прогноз уровня соответствует расчетному прогнозу, полученному по модели. Изучалась локализация экстремальных значений уровня и проводился анализ этих результатов. Численные расчеты выполнялись на суперкомпьютере Ломоносов-2 Московского государственного университета имени М.В. Ломоносова.

Ключевые слова: нелинейные модели циркуляции, численные ансамблевые эксперименты, анализ устойчивости модельных траекторий.

1 - 25 из 226 результатов 1 2 3 4 5 6 7 8 9 10 > >>