Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Применение синтетических данных в задаче обнаружения аномалий в сфере информационной безопасности

Артем Игоревич Гурьянов

187-200

Аннотация:

В настоящее время в машинном обучении высокую актуальность имеют синтетические данные. Современные алгоритмы генерации синтетических данных дают возможность генерации данных, очень близких по статистическим свойствам к исходным данным. Синтетические данные используются на практике в широком спектре задач, в том числе связанных с аугментацией данных.

Предложен метод аугментации данных, совмещающий подходы увеличения объема выборки с помощью синтетических данных и генерации синтетических аномалий. Метод использован для решения задачи в сфере информационной безопасности, заключающейся в поиске аномалий в журналах сервера с целью обнаружения атак.

Модель, обученная в рамках решения названной задачи, показала высокие результаты. Это демонстрирует эффективность использования синтетических данных для увеличения объема выборки и генерации аномалий, а также возможность с высокой результативностью использовать эти подходы совместно.

Ключевые слова: синтетические данные, обнаружение аномалий, информационная безопасность, генерация аномалий, аугментация данных, машинное обучение.

Развитие цифровой е-Инфраструктуры непрерывного доступа к научным ресурсам: формирование банка спектральных данных ДЗЗ

М.А. Попов, Е.Б. Кудашев, С.П. Ковальчук, С.А. Пикулик, С.А. Станкевич, С.Ю. Марков

Аннотация: При изучении природных и искусственных объектов с помощью спутниковых технологий важную роль играют спектральные данные, которые несут информацию о распределении отражающих/излучающих свойств физических объектов и материалов по длинам волн. Необходимо отметить, что оперативное получение необходимых спектральных данных из названных выше источников обычно является проблемой. В работе описан подход к построению банка спектральных данных с расширенными функциональными возможностями, позволяющими реализовывать не только справочно-поисковые процедуры, но и достаточно широкий круг расчетно-прикладных процедур относительно спектральных данных и их атрибутов. На основе системного анализа предметной области и реляционной модели предложена схема БД, реализованная средствами MS Access. Обоснована организационная структура БСД. Предложена простая схема интеграции БСД в е-Инфраструктуру непрерывного доступа к научным ресурсам ДЗЗ.

Ключевые слова: электронные библиотеки, спутниковые технологии, спектральные данные, цифровая инфраструктура непрерывного доступа, дистанционное зондирование Земли.

Информация о российских научных организациях в международных и русскоязычных источниках данных

756-769

Аннотация:

Рассмотрены международные и русскоязычные источники данных, предоставляющие информацию о российских научных организациях. Продемонстрировано, что русскоязычные источники данных содержат больше информации о русскоязычных научных организациях, чем англоязычные, но эта информация остается недоступной для англоязычных источников данных. Также описаны эксперименты по сопоставлению и интеграции информации о российских научных организациях в международных и российских источниках данных. Рассмотрены такие источники данных, как GRID, русскоязычная и англоязычная Wikipedia, Wikidata и eLIBRARY.ru. Работа является промежуточным этапом на пути к созданию открытого и расширяемого графа знаний.

Ключевые слова: разноязычные графы знаний, идентификация сущностей, научные организации, корректность.

Методы и алгоритмы повышения выразительности связанных данных (обзор)

Ольга Авенировна Невзорова

808-834

Аннотация: В обзорной статье рассмотрены методы и алгоритмы повышения выразительности связанных данных, подготовленных для публикации в Вебе. Представлены основные подходы к обогащению онтологий, описаны методы, на которых они базируются, а также приведен инструментарий, реализующий эти подходы и инструменты применения соответствующих методов.Основным этапом в общей схеме жизненного цикла данных в облаке открытых связанных данных является этап построения набора связанных RDF-триплетов. Для улучшения классификации данных и анализа их качества применяются различные методы повышения выразительности связанных данных. Основные идеи рассматриваемых методов связаны с обогащением существующих онтологий (расширением базовой схемы знаний) путем добавления или совершенствования терминологических аксиом. Методы обогащения опираются на методы, применяемые в различных областях, таких как представление знаний, машинное обучение, статистика, обработка текстов на естественном языке, анализ формальных понятий и теория игр.

Ключевые слова: связанные данные, онтология, обогащение онтологии, семантический веб.

Новый метод описания вихревых ковариационных экологических данных

Равиль Рашидович Нигматуллин, Александр Алексеевич Литвинов, Сергей Игоревич Осокин

41-75

Аннотация:

Предложены основы оригинальной теории квазивоспроизводимых экспериментов (КВЭ), основанной на проверяемой гипотезе о наличии существенной корреляции (памяти) между последовательными измерениями. На основе этой гипотезы, которую авторы для краткости определяют как верифицируемый принцип частичной корреляции (ВПЧК), можно доказать, что существует универсальная подгоночная функция (УПФ) для квазивоспроизводимых (КВ) измерений. Другими словами, существуют некая общая платформа или «мост», на котором, образно говоря, «встречаются» истинная теория (претендующая на описание данных из первых принципов или проверяемых моделей) и эксперимент, предлагающий эту теорию для проверки измеренных данных, максимально «очищенных» от влияния неконтролируемых факторов и аппаратно-программной функции. Фактически предлагаемая теория дает потенциальному исследователю способ очистки исходных данных и в конечном итоге предлагает подгоночную кривую, которая описывает данные, является периодической и очищенной от набора неконтролируемых факторов. Окончательная подгоночная кривая соответствует идеальному эксперименту.

Предложенная теория была проверена на вихревых ковариационных экологических данных по количеству/балансу CH₄, CO₂ и паров воды H₂O в атмосфере, где расположены соответствующие детекторы для измерения содержания искомых газов.

Для этих проверенных данных вихревой ковариации, связанных с наличием в атмосфере двух газов CH₄, CO₂ и паров H₂O, не существует простой гипотезы, содержащей минимальное число подгоночных параметров, и, следовательно, подгоночная функция, следующая из этой теории, может служить единственным и надежным средством количественного описания такого рода данных, принадлежащих сложной системе. Следует также отметить, что окончательная подгоночная функция, очищенная от неконтролируемых факторов, становится периодической и соответствует идеальному эксперименту.

Обсуждены приложения этой теории, ее место среди других альтернативных подходов (особенно затрагивающих профессиональные интересы экологов) и её дальнейшее развитие.

Ключевые слова: квазивоспроизводимые эксперименты, сложные системы, верифицируемый принцип частичной корреляции, универсальная подгоночная функция, квазипериодические измерения, квазивоспроизводимые измерения, эффекты памяти, вихревая ковариация.

Проблема построения синтетических психологических данных: опыт моделирования реакций на фрустрацию

Анфиса Анваровна Чуганская, Данил Алексеевич Киреев, Иван Валентинович Смирнов, Олег Георгиевич Григорьев

1235-1252

Аннотация:

Вопрос генерации синтетических данных для психологических исследований остается актуальным и сложным. Проблемы конфиденциальности, надежности, достоверности, валидности выводов остаются неравномерно представленными для различных областей психологии и фактически оказываются взаимосвязанными с решением вопроса использования синтетических данных в смежных науках – медицине, социологии, истории, политологии, экономике. Изучение различных психологических феноменов в рамках исследований больших социальных групп сопряжено с проблемами анализа сложно формализуемых конструктов. Под синтетическими общем виде понимают данные, искусственно сгенерированные на основе алгоритмов и моделирования.

В качестве основы настоящего исследования была выбрана классификация типов реакции на фрустрацию С. Розенцвейга. При анализе сетевого дискурса существует проблема малочисленности некоторых типов. Особенно это касается класса импунитивных реакций. В работе проанализирована возможность создания корпуса синтетических данных (на примере корпуса текстов реакций на фрустрацию), сгенерированными с помощью больших языковых моделей. При проведении экспериментов экспертами были созданы промпты и выполнена генерация примеров импунитивных реакций с помощью четырех больших языковых моделей, по 10 примеров каждого типа реакций. Была также дана проведена оценка контекстной достоверности и качества генерации. Полученные результаты позволяют определить слабые стороны генерации текстов со сложными психологическими феноменами для обучения нейросетевых моделей.

Ключевые слова: фрустрация, большая языковая модель (LLM), синтетические данные, искусственный интеллект, промпт, сетевая дискуссия, классификация Розенцвейга.

Автоматизация чтения связанных данных из реляционных и нереляционных баз данных в контексте использования стандарта JPA

Ангелина Сергеевна Савинчева, Александр Андреевич Ференец

656-678

Аннотация:

Описан процесс автоматизации управления операцией чтения связанных данных из реляционных и нереляционных баз данных.

Разработанный программный инструмент основан на использовании стандарта JPA (Java Persistence API), который определяет возможности контроля жизненного цикла сущностей в Java-приложениях. Спроектирована архитектура встраивания в событийные процессы, позволяющая интегрировать решение в проекты вне зависимости от используемой реализации JPA. Реализована поддержка различных стратегий загрузки данных, типов и параметров отношений. Осуществлена оценка производительности инструмента.

Ключевые слова: JPA, ORM, Java, базы данных, реляционные базы данных, нереляционные базы данных.

Перечень ВАК: интерфейс пользователя в базе РНЖ и eLibrary.ru

Татьяна Алексеевна Полилова

43-64

Аннотация:

Перечень рецензируемых научных журналов ВАК постепенно превращается в достаточно сложную информационную систему, завязанную на нормативные документы ВАК, библиометрические данные eLibrary.ru, решения экспертных советов ВАК и рабочих групп, занимающихся анализом, ранжированием и категорированием журналов Перечня. Созданная ФГБУ РИЭПП база Российские научные журналы (РНЖ) может стать системой, обслуживающей запросы разных категорий пользователей, связанных с темой защиты диссертаций. Пока в РНЖ реализованы интерфейс представителя редакции журнала и интерфейс члена экспертного совета ВАК. В РНЖ желательно включить открытый интерфейс, обращенный соискателю ученой степени, для проверки выполнения требований ВАК к публикациям в журналах из Перечня. При налаженном взаимном обмене данными между РНЖ и eLibrary.ru интерфейс соискателя с обозначенным функционалом может быть организован в среде пользователя eLibrary.ru.

Ключевые слова: научный журнал, информационная система, библиографическая база, Перечень ВАК, база РНЖ, eLibrary.ru, интерфейс соискателя ученой степени.

Рейтинги библиографической базы и «белые списки»

Татьяна Алексеевна Полилова

640-670

Аннотация:

В настоящее время российские учреждения практически полностью отключены от западных информационных ресурсов и сервисов, связанных с изданием научных журналов. В таких условиях особую актуальность приобрела задача замещения ушедших сервисов, переориентация на отечественные научные журналы, российские библиотечные онлайновые ресурсы. В наиболее крупной библиографической базе eLibrary.ru, ориентированной на русскоязычные научные издания, собрана информация почти о 15 тысячах русскоязычных журналов. В eLibrary.ru действует аналитическая система «Российский индекс научного цитирования» (РИНЦ), обрабатывающая метаданные статей более чем 5 тысяч российских научных журналов. Насколько eLibrary.ru и РИНЦ готовы взять на себя функции национальной библиографической базы? По какой причине в российских организациях появляются «белые списки» журналов?

Основная проблема РИНЦ состоит в качестве построенных рейтингов научных журналов. Методики расчета рейтингов все прошедшие годы вызывали определенные критические замечания. В работе приводится пример построенного в РИНЦ рейтинга журналов из раздела «Математика». На первых позициях оказались журналы, малоизвестные в среде профессиональных математиков. Серьезные деформации в рейтингах РИНЦ подрывают доверие ученых к предлагаемым РИНЦ оценкам авторитетности российских журналов. Реакция некоторых вузов и научных организаций вполне ожидаемая: организации начинают вводить свои критерии успешности публикационной деятельности сотрудников, связанные с публикацией статей в журналах из так называемых «белых списков». Белый список журналов составляется, как правило, экспертными советами организации прицельно по каждой дисциплине и научному направлению. При составлении белых списков наукометрические показатели могут учитываться, но они не являются преимущественным критерием для отбора журналов. Белые списки в настоящее время могут стать разумным дополнением рейтингов библиографических баз.

Ключевые слова: научная публикация, рейтинг журналов, тематическая классификация, импакт-фактор, мультидисциплинарность, библиографическая ссылка, белый список научных журналов.

Развитие информационной системы регистрации результатов интеллектуальной деятельности сотрудников научного учреждения

Светлана Александровна Власова, Николай Евгеньевич Каленов

770-793

Аннотация:

Описана разработанная авторами веб-система, реализующая сервисы, связанные с формированием и предоставлением многоаспектной информации о результатах научной деятельности (публикациях, авторских свидетельствах и докладах на научных мероприятиях) сотрудников организации или группы организаций. Система ориентирована как на конечного пользователя, заинтересованного в получении конкретных данных, так и на административный персонал, формирующий отчетные материалы для вышестоящей организации. Информационная база системы содержит связанные данные о следующих классах объектов: персоны (авторы), организации и их подразделения; публикации на аналитическом, монографическом и сводном уровнях; авторские свидетельства; научные мероприятия (конференции, симпозиумы, семинары); доклады. В состав системы входят два модуля – административный, предназначенный для ввода и редактирования данных, и пользовательский, который представляет собой специальный поисковый аппарат, осуществляющий поиск информации, ее визуализацию, навигацию по связанным ресурсам и экспорт данных. Отличительной особенностью системы является введенное понятие «эквивалентных» объектов. Эквивалентными считаются объекты, представленные в системе различными метаданными, но относящимися к одной физической сущности. Такими объектами являются «персоны», соответствующие одному автору с различными написаниями фамилии в библиографических описаниях публикаций; организации, имеющие различные варианты названий; статьи, опубликованные без изменений на различных языках. В соответствии с современными требованиями к отчетности по публикациям в системе отражаются источники финансирования научных исследований, а также аффилиации каждого автора, указанные в статьях.

Ключевые слова: научные труды, научная деятельность, автоматизированная система, база данных, отчеты, сетевые технологии.

Третий Всероссийский Симпозиум «Инфраструктура научных информационных ресурсов и систем»

Е.Б. Кудашев, В.А. Серебряков

Аннотация: Статья посвящена анализу работы Третьего Всероссийского Симпозиума «Инфраструктура научных информационных ресурсов и систем», состоявшегося в г. Сухум, Абхазия, 5-8 октября 2013 г. Лавинообразный рост объема электронного контента потребовал разработки новых подходов к хранению и непрерывному доступу к цифровым научным данных. Особый интерес вызывают актуальные научные задачи по созданию инфраструктур пространственных данных. На Симпозиуме традиционно обсуждаются вопросы, связанные с интеграцией геоинформационных ресурсов и свободного доступа к ним, исследования e-Infrastructures с целью формирования распределенных научных информационных ресурсов, развития взаимосвязанных каталогов и создания сети интегрированных интероперабельных баз данных. Развитие e-Science Infrastructures должно стать основой формирующихся систем коллективной работы исследователей на основе виртуального объединения информационных и вычислительных ресурсов. Основным направлением работы Третьего Симпозимума были вопросы применения современных подходов в технологии развития информационных систем к задачам информационной поддержки научных исследований.

Ключевые слова: цифровой контент, научные данные, формирование цифровой инфраструктуры, непрерывный доступ и длительное хранение данных, третий Симпозиум.

Базовые сервисы фабрики метаданных цифровой математической библиотеки Lobachevskii-DML

336-381

Аннотация: Решен ряд задач, связанных с построением фабрики метаданных цифровой математической библиотеки Lobachevskii-DML. Под фабрикой метаданных понимается система взаимосвязанных программных инструментов, направленных на создание, обработку, хранение и управление метаданными объектов цифровых библиотек и позволяющих интегрировать создаваемые электронные коллекции в агрегирующие цифровые научные библиотеки. С целью выбора оптимальных таких программных инструментов из существующих и их модернизации: обсуждены особенности представления метаданных документов различных электронных коллекций, связанные как с применяемыми форматами, так и с изменениями состава и полноты набора метаданных в течение всего времени издания соответствующего научного журнала;представлены и охарактеризованы программные инструменты управления научным контентом и методы организации автоматизированной интеграции репозиториев математических документов с другими информационными системами;обсуждена такая важная функция фабрики метаданных цифровой библиотеки, как нормализация метаданных в соответствии с форматами других агрегирующих библиотек.В результате разработки фабрики метаданных цифровой математической библиотеки Lobachevskii-DML предложена система сервисов автоматизированного формирования метаданных электронных математических коллекций; разработан xml-язык представления метаданных, основанный на Journal Archiving and Interchange Tag Suite (NISO JATS); созданы программные инструменты нормализации метаданных электронных коллекций научных документов в форматах, разработанных международными организациями – агрегаторами ресурсов по математике и Computer Science; разработан алгоритм приведения метаданных к формату oai_dc и генерации структуры архивов для импорта в цифровое хранилище DSpace; предложены и реализованы методы интеграции электронных математических коллекций Казанского университета в отечественные и зарубежные цифровые математические библиотеки.

Ключевые слова: цифровые библиотеки, цифровая математическая библиотека, формирование метаданных, извлечение метаданных, нормализация метаданных, фабрика метаданных, NISO JATS, семантические связи, Lobachevskii-DML.

Рейтинг журнала в библиографической базе

Михаил Михайлович Горбунов-Посадов, Татьяна Алексеевна Полилова

1060-1089

Аннотация:

Инструмент построения рейтингов научных журналов является одним из востребованных сервисов библиографических баз. Задача построения рейтинга обычно делится на две основные подзадачи: определение референтной группы журналов и вычисление показателя рейтинга для журналов этой группы. Практика показывает, что для корректного сопоставления журналов необходимым условием является ограничение референтной группы исключительно журналами определенной тематики. В случае методических ошибок, допущенных на этапе выделения референтной группы, значения показателя журналов в рейтинге могут сильно отличаться от ожидаемых.

Например, в рейтинге журналов в Российском индексе научного цитирования (РИНЦ) по двухлетнему импакт-фактору в тематическом направлении «Математика» классические фундаментальные математические журналы вопреки ожиданиям не выходят на первые позиции рейтинга. Первые позиции заняли журналы, для которых математика не является доминирующей профильной дисциплиной. Анализ статистических данных о тематике публикуемых статей и цитирований в журналах, занимающих лидирующие позиции рейтинга РИНЦ, показывает, что на показатели рейтинга существенно повлияла мультидисциплинарность этих журналов.

Отмеченное недоразумение подводит к мысли о том, что в подсчет рейтинга в данном случае следовало вовлекать не все статьи журнала, а только относящиеся к данному тематическому направлению. Вместе с тем вопросы вызывает и сложившаяся схема тематической классификации направлений. Более перспективной представляется набирающая популярность классификация «снизу вверх», работающая на представительном массиве статей. Здесь тематические кластеры вычленяются на основе понятия близости статей, трактуемого как близость их библиографических связей. И далее тематическая принадлежность статьи не назначается волевым решением автора или редакции, а строго формально вычисляется на основе ее библиографического списка.

Ключевые слова: научная публикация, цитирование, рейтинг журналов, тематическая классификация, импакт-фактор, мультидисциплинарность, библиографическая ссылка, со-цитирование, классификация снизу вверх, тематическая кластеризация, Citation Topics.

Идентификация авторов в рамках предметной области в семантической библиотеке

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова

198-217

Аннотация:

Рассмотрены особенности задачи идентификации авторов и определения авторского вклада в публикации в цифровых библиографических коллекциях. Особенности проблемы недостаточной идентификации проявляются в повторах информации, двойниковании, наличии авторов с полностью совпадающими именами, самоцитировании, автоплагиате и собственно плагиате. Предлагается использовать информацию о публикациях, которая уже накоплена в цифровой библиотеке в виде связанных данных предметной области и множества данных тезауруса адресата, как автора и пользователя библиотеки. Эта информация содержит связи, благодаря которым для идентификации авторства можно использовать контексты ключевых слов, множества соавторов и ассоциативные связи терминов в словарях и тезаурусах. Важно, что рассматривается массив научных публикаций, поскольку они имеют сложившуюся традиционную структуру, что позволяет сравнивать фиксированные элементы текста (аннотации, ключевые слова, коды классификаторов и т. д.). Таким образом, даже при полном совпадении имен в публикациях можно ставить вопрос об авторстве, если в цифровой библиотеке публикации соответствуют различным предметным областям. Разрешение таких противоречий осуществляется путем оценки множества связей всех элементов вторичной информации о публикации. Результатом сравнения может быть добавление автора в некоторую предметную область, т. е. расширение тезауруса адресата и персонального тезауруса автора, или появление в библиотеке полных тезок, но из разных областей знаний. Показано, что современные средства анализа данных позволяют оценить вклад автора в публикацию, несмотря на то, что конечно, реальный вклад в научное исследование может оценить только научное сообщество.

Ключевые слова: сравнение научных текстов, семантический поиск, тезаурус для онтологии знаний, информационный запрос с помощью тезауруса, семантические библиотеки, способы идентификации авторов, тезаурус адресата, вторичная информация, частотный словарь индивидуума, LibMeta.

Исследование контекстов экосистемы «Цифрового туризма»

Ольга Витальевна Кононова, Дмитрий Евгеньевич Прокудин, Елена Николаевна Тупикина

339-370

Аннотация:

Современные информационно-коммуникационные технологии, элементы цифровизации постоянно и стремительно развиваются, что, в свою очередь, оказывает непосредственное влияние на все сферы человеческой деятельности. В свете последних событий, связанных с коллапсом туристического бизнеса из-за COVID-19, большой научный интерес проявляется к сфере услуг, а именно, к сфере «цифрового туризма». Цифровой туризм опирается на широкое внедрение новых технологий, таких как социальные сети и мобильные технологии, умные устройства и датчики для сбора и использования огромного количества данных для создания новых ценностных предложений. В связи с этим авторами поставлена цель – представить обзор литературы по «цифровому туризму» с позиций научного и медиа дискурса. Авторами представлен комплексный науковедческий подход, включающий последовательное выполнение всех этапов обзора от определения терминологического ядра междисциплинарного направления, формирования поисковых запросов, каскадного поиска, подбора и контент-анализа материалов до выявления и экспликация контекстов. Источниками информации для подготовки обзора выступили публикации из академических баз данных: Web of Science, Science-Direct, Scopus, GoogleScholar, eLibrary, Киберленинка, а также материалы и публикации в русскоязычных СМИ – Интегрум.

Полученные результаты будут полезны ученым при определении перспективных направлений исследований в области «цифрового туризма», а также позволят углубить знания о механизмах поиска, сбора и анализа данных и интегрированных и аналитических средах.

Ключевые слова: информационно-коммуникационные технологии, цифровые трансформации, цифровой туризм, электронный туризм, eTourism, smart tourism.

Технология наполнения предметных онтологий пространства научных знаний

Николай Евгеньевич Каленов

101-115

Аннотация:

Под предметной онтологией в контексте этой статьи понимается совокупность ключевых понятий, относящихся к некоторой области науки, с их семантическими связями, дополненная индексами различных классификационных систем, описывающих данную научную область. Предметные онтологии являются необходимой составляющей каждого подпространства, входящего в Единое цифровое пространство научных знаний (ЕЦПНЗ). В данной статье приводятся результаты исследований, связанных с построением предметных онтологий на базе созданной автоматизированной системы поддержки терминологических словарей и предлагается методология выделения новых ключевых терминов отдельной области науки. Предлагаемая методология базируется на использовании существующих классификационных систем в совокупности с базами данных цитирования (БДЦ), такими как Web of Science и Scopus для англоязычных публикаций и Российский индекс цитирования (РИНЦ) – для русскоязычных. Методология предполагает разбиение научной области на ряд разделов в соответствии с выбранной классификационной системой, выделение из БДЦ ядра статей, относящихся к каждому разделу, а из статей – новых авторских ключевых терминов, которые и должны составлять, в совокупности с соответствующими разделами классификационных систем, основу предметной онтологии данной научной области.

Ключевые слова: пространство научных знаний, предметная онтология, базы данных цитирования, ключевые термины, тезаурус для онтологии знаний, классификационные системы.

Mixed methods study of middle school mathematics teachers’ content knowledge in usa and russia using sequential nested design

Мурат Аширович Чошанов

255-286

Аннотация: The sequential nested mixed methods study focused on comparative analysis of middle school mathematics teachers’ content knowledge in two countries. The study consisted of two stages: (1) quantitative study of teacher content knowledge; (2) qualitative study of teacher topic-specific content knowledge. The initial sample for the first stage included lower secondary mathematics teachers from the U.S. (grades 6–9, N=102) and Russia (grades 5–9, N=97). The Teacher Content Knowledge Survey (TCKS) was applied to assess teacher content knowledge based on the cognitive domains of Knowing, Applying, and Reasoning, as well as addressing the lower secondary mathematics topics of Number, Algebra, Geometry, Data and Chance. The second stage – an interpretive cross-case study – aimed at the examination of the U.S. and Russian teachers’ topic-specific knowledge on the division of fractions. For the second stage, N=16 teachers (8 – from the U.S., and 8 – from Russia) were selected for the study using non-probability purposive sampling technique based on teachers’ scores on the TCKS. Teachers were interviewed on the topic of fraction division using questions addressing their content and pedagogical content knowledge. The study revealed that there are explicit similarities and differences in teachers’ content knowledge as well as its cognitive types. The study results may inform the field on priorities placed on lower secondary mathematics teachers’ knowledge in the USA and Russia. It also suggests close comparison and learning about issues related to teacher knowledge in both countries with a potential focus on re-examining practices in teacher preparation and professional development.

Ключевые слова: cross-national comparison, teacher knowledge, topic-specific content knowledge, lower secondary school mathematics.

Среда интеграции пространственных данных «ГеоМета»

О.М. Атаева, К.А. Кузнецов, В.А. Серебряков, В.И. Филиппов

Аннотация: Приводится описание стандартизированной и децентрализованной среды управления пространственной информацией на основе портала пространственных данных «ГеоМета», разработанного для доступа к базам геоданных, картографическим продуктам и связанным с ними метаданным из различных источников. Рассматриваются основные возможности портала с акцентом на расширения, реализованные в его последних версиях.

Ключевые слова: пространственные данные, инфраструктура пространственных данных, геопортал, метаданные.

Построение цифровой системы управления геологическими знаниями для поддержки научных исследований

Михаил Иванович Патук, Вера Викторовна Наумова

148-158

Аннотация:

Описаны новые подходы к сбору данных о научных публикациях из систем открытого доступа с тематикой «Науки о земле». На основе разработанных и адаптированных подходов созданы архив научных публикаций (репозиторий) и комплекс программ доступа к научным публикациям для сбора, поиска, фильтрации, каталогизации и управления публикациями и их метаданными. Для улучшения доступности публикаций и других связанных с ними данных, находящихся на сайтах Государственного геологического музея им. В.И. Вернадского РАН, разработана система Wiki – Геология России. Эта система является тематическим рубрикатором по направлению «Месторождения полезных ископаемых России», с дополнительной тематикой «Минералогия». Все статьи имеют ссылку на источник информации из архива научных публикаций и, опционально, дополнительные ссылки по сходной тематике. Wiki – Геология России являются первым шагом в создании базы знаний по месторождениям полезных ископаемых.

Ключевые слова: Wiki – Геология России, системы управления знаниями, репозиторий.

Генерация временных сигналов из статических изображений для подачи на спайковые нейронные сети

Александр Сергеевич Тощев

1061-1077

Аннотация:

Спайковые нейронные сети (далее — СНС, т. е. нейросети, передающие информацию во времени с помощью импульсов) требуют временного входа, тогда как в задачах компьютерного зрения данные чаще заданы статическими изображениями. В работе рассмотрено преобразование вида «изображение – временной сигнал – импульсы» и исследовано влияние способа входного кодирования на динамику обучения СНС, плотность импульсной активности и вычислительную стоимость обработки. В экспериментальной части реализованы и сопоставлены два семейства кодирования: кодирование по времени первого импульса (Latency) и пуассоновское кодирование по интенсивности (Poisson); для них рассмотрены четыре режима: базовый Latency без подавления фона, модифицированный Latency с порогом тишины, стохастический Poisson и детерминированный Poisson. В качестве метрик использованы среднее число импульсов на пример, число синаптических операций, прокси-показатель энергозатрат и характеристики конкуренции нейронов скрытого слоя. Эксперименты на наборе MNIST (60000 обучающих и 10000 тестовых изображений) для сети со скрытым слоем из 100 нейронов и горизонтом моделирования 200 шагов показали, что все исследованные режимы обеспечивают устойчивое обучение без коллапса активности. При этом модифицированный Latency с порогом тишины
оказался наиболее эффективным по соотношению «полезная активность — вычислительная стоимость»: при количестве спайков на один пример 323.41 для него число синаптических операций составило 14295.09, тогда как базовый Latency без фильтрации фона при близкой выходной активности (311.22 импульса на пример) потребовал 78400 синаптических операций.

Ключевые слова: спайковые нейронные сети, распознавание изображений, кодирование сигнала, кодирование изображений.

Контроллер реалистичного поведения стай/стад животных

Влада Владимировна Кугуракова, Александр Михайлович Степанов

239-272

Аннотация:

Работа посвящена рассмотрению процесса моделирования реалистичного контроллера поведения групп объектов. Проведено исследование основных приемов и принципов, используемых при создании реалистичного контроллера поведения автономных агентов, объединенных в связанные группы. На основе этих данных создан контроллер поведения.

Исследована эффективность поведения групп автономных агентов, рассмотрены возможности использования системы локальных скалярных полей с целью построения максимально точной математической модели, проведён анализ возможности создания иерархической системы мультиагентных подгрупп в рамках группы, проведены эксперименты для оценки корректности разработанного контролера.

Ключевые слова: контроллер, группа, модель поведения.

Предсказание качества автоматического распознавания речи на основе больших языковых моделей

Антон Полевой

1189-1211

Аннотация:

Предложен подход к прогнозированию показателя качества распознавания речи Word Error Rate (WER) на основе акустических характеристик сигнала и вычисления перплексии языковых моделей. Предлагаемый метод включает в себя создание разнообразных наборов аудиоданных путем применения различных типов акустических искажений к чистым речевым образцам на различных уровнях качества и разборчивости. В отличие от предыдущих работ, извлекается и анализируется полный набор речевых признаков: прогнозирование значения отношения сигнал/шум (signal-to-noise ratio, SNR), нейросетевые метрики качества звука (NISQA и др.), метрики уверенности модели распознавания речи, а также перплексия текста гипотезы ASR по языковой модели в качестве дополнительного признака для обучения единой модели прогнозирования WER.

Проведены эксперименты с использованием современных архитектур распознавания речи для демонстрации эффективности предлагаемого метода в прогнозировании WER в различных акустических условиях. Показано, что включение перплексии существенно повышает качество прогноза WER, в частности для данных, где акустические признаки слабо коррелируют с ошибками распознавания. Результаты применимы для автоматической оценки ожидаемого качества распознавания речи и фильтрации аудиовходов.

Ключевые слова: прогнозирование WER, акустическая деградация при распознавании речи, перплексия, уверенность систем автоматического распознавания речи.

Семантическая библиотека как средство определения научной предметной области

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков

988-1005

Аннотация:

Рассмотрены информационная система, предназначенная для представления предметной области, связанной с наукой, и ее особенности. Выделены общие концепции для формального описания такой предметной области в базе знаний семантической библиотеки. Особенность этих областей заключается в том, что структура данных подвержена частым изменениям. Поэтому средство организации знаний, в качестве которого выступает семантическая библиотека, должно быть достаточно универсальным и не требовать глубоких технических познаний. В работе приведены описание функциональности системы и ее использования при настройке на предметную область. Для каждой области набор ресурсов может отличаться как по формату, так и по набору самих ресурсов. Набор понятий, формирующих описание контента библиотеки, должен быть настолько универсальным, чтобы мог адаптироваться под нужды конкретной области. Для представления данных использованы метаданные трех уровней.

Ключевые слова: семантическая библиотека, онтология, представление знаний.

Формирование расширенных поисковых запросов на основе тезауруса предметной области в онтологии знаний семантической библиотеки

271-291

Аннотация: Обсуждены возможности расширения поискового запроса при наличии тезауруса предметной области. Роль контекста, задаваемого связями терминов тезауруса, заключается как в уточнении запроса, так и в увеличении масштабов выборки по запросу. Особое значение процесс расширения запроса имеет для научных предметных областей, где поиск опирается на специальную терминологию. В этом случае необходимо использовать тезаурусы предметных областей, чтобы минимизировать появление информационного шума. Предлагаемый подход позволяет учитывать особенности применения аналогичной терминологии в различных предметных областях. Примеры использования тезауруса отдельных разделов уравнений математической физики и смежных областей демонстрируют эффективность выбранного подхода исследований. Благодаря связям с понятиями информационных ресурсов других областей знаний, расширение информационного запроса захватывает поисковые поля отдаленных предметных областей и различных типов данных, текстов, символьных, звуковых и видеоархивов. Исследования показали, что расширение запроса на основе семантики контекста улучшает качество поиска научных публикаций в цифровой информации и повышает эффективность научных междисциплинарных исследований.

Ключевые слова: сравнение научных текстов, семантический поиск, тезаурус для онтологии знаний, информационный запрос с помощью тезауруса, семантические библиотеки.

Cистема поддержки принятия решений при выборе источников информации в сетях цитирования

Инна Геннадьевна Ольгина

76-96

Аннотация:

С появлением науки о сетях стало возможным исследовать сложные сетевые системы, в том числе социальные и информационные, посредством представления их в виде графовых моделей. Рост в геометрической прогрессии общего объема научных публикаций обуславливает актуальность задач анализа их взаимосвязей. В науке о сетях для решения данных задач разрабатываются модели и методы, относящиеся к сфере так называемых сетей цитирования. Однако сетевые метрики не используются при анализе публикаций в базах цитирования.

В работе рассмотрены вопросы создания системы поддержки принятия решений при выборе источников информации на основе данных о цитировании научных публикаций. Разработан программный комплекс для принятия решений по определению важности публикации в определенной тематической области. В основу работы этого программного комплекса заложен метод ранжирования публикаций по важности на основе анализа сетей цитирования, позволяющий выявить публикации, которые явно не выделяются в чистом виде при ранжировании на основе известных библиометрических показателей или известных мер центральности узлов. Проведены исследование и сравнительный анализ программного обеспечения для визуализации и исследования всех видов графов и социальных сетей. Выполнены исследования, подтверждающие эффективность предлагаемой системы поддержки принятия решений при выборе источников информации.

Ключевые слова: сеть цитирования, публикация, наукометрия, система поддержки принятия решений, архитектура программного комплекса, сетевой анализ, граф.

1 - 25 из 35 результатов 1 2 > >>