Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Инфраструктура научных информационных ресурсов для непрерывного доступа к спутниковым данным исследования Земли из космоса

Е.Б. Кудашев

Аннотация: В статье рассматриваются проблемы формирования e-Science Infrastructure для организации непрерывного доступа к спутниковым данным и обмена огромными потоками данных в связи с актуальной задачей интеграции информационных ресурсов. В России спутниковые данные рассредоточены в региональных спутниковых центрах данных. Их использование зачастую ограничено рамками конкретного проекта, в котором они были созданы. Чрезвычайно затруднены поиск ресурсов, доступ к данным и обмен данными. Многие ведомства и спутниковые центры пользуются собственными форматами представления данных, протоколами обмена, созданными достаточно давно и потому не полностью гармонизированными с современными международными правилами и стандартами. Одной из основных проблем, связанных с организацией хранения больших объемов данных Дистанионного Зондирования Земли (ДЗЗ) и непрерывного доступа к спутниковым ресурсам, является потребность интеграции различных поставщиков данных в единую информационную систему, позволяющую повысить эффективность научных исследований в области ДЗЗ. Предложены и обоснованы принципы и архитектура объединенной электронной e-Инфраструктуры непрерывного доступа к спутниковым данным. Описание геопространственных данных определено международными стандартами ISO 19115:2003 Geographic information – Metadata, ISO 19115-2:2005 Geographic information – Metadata. – Part 2: Extensions for imagery and gridded data. Существуют прототип FGDC-STD-001-1998 названных стандартов США и российский профиль стандарта ISO 19115 в виде документа ГОСТ Р 52573-2006 “Географическая информация. Метаданные.” Метаданные на текстовые материалы в сетях формируются с использованием стандарта Dublin Core. Единая политика администрирования е-Инфраструктуры обеспечивает согласованные между участниками правила доступа и использования ресурсов, унифицированные подходы к обеспечению информационной безопасности. Гарантией доступности и безопасности данных является проведение единой политики управления данными. Требование свободного информационного обмена реализуется путем задействования стандартизированных сетевых протоколов обмена данными и языков описания данных и построения запросов (прежде всего, SQL и XML). Интероперабельность обеспечивается глобальной унификацией технических регламентов, протоколов передачи и форматов данных, а также метаданных и поддерживается целой группой специально разрабатываемых стандартов (ISO/IEC 11179 Information technology — Specification and standardization of data elements; ISO 19113:2002 Geographic information — Quality principles; ISO 19114 Geographic information — Quality evaluation procedures и др.). Разработана архитектура e-Инфраструктуры непрерывного доступа к спутниковым данным, состоящая из компонент: 1) ГИС-сервер управляет геоинформационными ресурсами (карты, изображения, цифровые модели местности, текстуальная информация и т. д.) и транслирует их веб-приложениям в виде отдельных геосервисов; 2) Веб-сервер предназначен для хранения и управления геопорталом. Структурно и функционально Веб- и ГИС-сервера могут быть развернуты на отдельных компьютерах; 3) Геопортал - платформа для создания распределенной среды интеграции геоинформационных данных. Геопортал как единая точка входа в распределенную среду данных представляет из себя совокупность отдельных приложений и сервисов. Используется для публикации, администрирования и поиска стандартизированных геоинформационных ресурсов. Геопортал расположен на веб-сервере и является клиентским приложением ГИС-сервера. Пользователи, взаимодействуя с ним, вызывают сервисы, которые являются посредниками между веб-сервером и ГИС-сервером и обращаются к ГИС-серверу через его компонент SOM за необходимым инструментарием (геосервисами); 4) Сервисы каталогов - предназначены для доступа, поиска, накопления, обработки метаданных геопространственных ресурсов; сервисы обеспечивает общий механизм для классификации, регистрирования, публикации, поиска, хранения и доступа к метаинформации об имеющихся в сети геоинформационных ресурсах. Сервисы каталога предоставляют метаданные о зарегистрированных геоинформационных ресурсах, поддерживают формирование запросов на информацию по типам ресурсов. Они позволяют публиковать, создавать и редактировать наборы метаданных для геопространственных данных, геопространственных сервисов и геоссылок; 5) Сервис данных - обеспечивает доступ к содержанию ресурсных информационных материалов, которые находятся в базах и банках геоданных. Каждой единице ресурсов, с которыми работает этот сервис, присваивается уникальное имя. Для повышения скорости поиска осуществляется индексация ресурсов; 6) База моделей тематических задач ДЗЗ - предназначена для хранения моделей тематических задач ДЗЗ и позволяет с помощью интерфейса программы-планировщика выбрать наиболее адекватную (релевантную) модель в соответствии с поставленной задачей; 7) Программное обеспечение как сервис (Software as a Service (SaaS)). SaaS подразумевает предоставление приложений для конечного пользователя в виде сервиса «по требованию» вместо его установки на конкретном рабочем месте или на собственном сервере. В рамках “облачных” вычислений существуют и другие направления: платформа как сервис и инфраструктура как сервис. 8) Инфраструктура как сервис (Infrastructure as a Service (IaaS)) – охватывает аппаратные средства и технологию для компьютерных вычислений и хранения данных, операционные системы и другую инфраструктуру, которые предоставляются не как локальные ресурсы, а опосредованно – через обращение к сервисам, размещенным на стороне провайдера. 9) Клиентские ГИС-приложения - устанавливаются на конечных устройствах локальных и удаленных пользователей и подключаются по протоколу HTTP к геопорталу по сетям LAN или WLAN для поиска, публикации и сохранения стандартизированных геоинформационных данных.

Ключевые слова: инфраструктура научных данных, электронная наука, данные наблюдения Земли из космоса, научная электронная инфраструктура, открытая инфраструктура данных, управление данными.

Базовые сервисы фабрики метаданных цифровой математической библиотеки Lobachevskii-DML

Полина Олеговна Гафурова, Александр Михайлович Елизаров, Евгений Константинович Липачёв

336-381

Аннотация: Решен ряд задач, связанных с построением фабрики метаданных цифровой математической библиотеки Lobachevskii-DML. Под фабрикой метаданных понимается система взаимосвязанных программных инструментов, направленных на создание, обработку, хранение и управление метаданными объектов цифровых библиотек и позволяющих интегрировать создаваемые электронные коллекции в агрегирующие цифровые научные библиотеки. С целью выбора оптимальных таких программных инструментов из существующих и их модернизации: обсуждены особенности представления метаданных документов различных электронных коллекций, связанные как с применяемыми форматами, так и с изменениями состава и полноты набора метаданных в течение всего времени издания соответствующего научного журнала;представлены и охарактеризованы программные инструменты управления научным контентом и методы организации автоматизированной интеграции репозиториев математических документов с другими информационными системами;обсуждена такая важная функция фабрики метаданных цифровой библиотеки, как нормализация метаданных в соответствии с форматами других агрегирующих библиотек.В результате разработки фабрики метаданных цифровой математической библиотеки Lobachevskii-DML предложена система сервисов автоматизированного формирования метаданных электронных математических коллекций; разработан xml-язык представления метаданных, основанный на Journal Archiving and Interchange Tag Suite (NISO JATS); созданы программные инструменты нормализации метаданных электронных коллекций научных документов в форматах, разработанных международными организациями – агрегаторами ресурсов по математике и Computer Science; разработан алгоритм приведения метаданных к формату oai_dc и генерации структуры архивов для импорта в цифровое хранилище DSpace; предложены и реализованы методы интеграции электронных математических коллекций Казанского университета в отечественные и зарубежные цифровые математические библиотеки.

Ключевые слова: цифровые библиотеки, цифровая математическая библиотека, формирование метаданных, извлечение метаданных, нормализация метаданных, фабрика метаданных, NISO JATS, семантические связи, Lobachevskii-DML.

Метод автоматического пополнения метаданных электронных коллекций цифровой математической библиотеки

Полина Олеговна Гафурова

164-186

Аннотация:

Предложены подходы к дополнению метаданных документов электронных коллекций цифровой математической библиотеки. В качестве источников информации для пополнения метаданных использованы открытые ресурсы семантической сети. Для этой цели разработаны программные инструменты, обеспечивающие поиск необходимых данных и их включение в набор метаданных.

Предложен алгоритм пополнения метаданных аффилиации авторов научной статьи. Как правило, представленная в документе аффилиация содержит недостаточное количество информации, необходимой для формирования набора метаданных. Метод пополнения метаданных аффилиации авторов основан на данных, извлеченных из открытого реестра идентификаторов научных организаций Research Organization Registry (ROR). Также в методе использованы разработанные инструменты извлечения связей между ROR и открытыми семантическими сетями. Этот метод апробирован на электронной коллекции статей журнала «Электронные библиотеки» за 2021–2022 годы.

На основе предложенного метода разработан программный сервис, включенный в фабрику метаданных цифровой библиотеки Lobachevskii-DML. Также результатом работы является включение в цифровую библиотеку Lobachevskii-DML новых электронных коллекций. Кроме того, описан метод трансформации метаданных в формат, доступный для загрузки в библиотеку.

Ключевые слова: ROR, Wikidata, цифровые библиотеки, метаданные аффилиации, Lobachevskii-DML.

Методика сравнения программных решений распознавания текстов научных публикаций по качеству извлечения метаданных

Илия Игоревич Кузнецов, Олег Пантелеевич Новиков, Дмитрий Юрьевич Ильин

654-680

Аннотация:

Метаданные научных публикаций используются для построения каталогов, определения цитируемости публикаций и решения других задач. Автоматизация извлечения метаданных из PDF-файлов позволяет ускорить выполнение обозначенных задач, а от качества извлеченных данных зависит возможность их дальнейшего использования. Проанализированы существующие программные решения, в итоге отобраны три: GROBID, CERMINE, ScientificPdfParser. Предложена методика сравнения этих программных решений распознавания текстов научных публикаций по качеству извлечения метаданных. На основе методики проведен эксперимент по извлечению четырех типов метаданных (название, аннотация, дата публикации, имена авторов). Для сравнения программных решений использован набор из 112457 публикаций с разбиением на 23 предметные области, сформированный на основе данных Semantic Scholar. Приведен пример выбора эффективного программного решения извлечения метаданных в условиях заданных приоритетов для предметных областей и типов метаданных с использованием взвешенной суммы. Определено, что для приведенного примера CERMINE показывает эффективность на 10,5% выше, чем GROBID, и на 9,6% выше, чем ScientificPdfParser.

Ключевые слова: распознавание текста, научные публикации, метаданные, качество извлечения данных, методика.

Процессный подход и построение базы данных по управлению непрофильными активами кредитной организации

Марат Хайдарович Шакиров

710-753

Аннотация:

Проведен анализ развития интеллектуальных систем в кредитных организациях (далее – Банках).

Предложен метод выстраивания сквозного управленческого учета в подразделении кредитной организации, специализирующегося на работе с непрофильными активами. На базе процессного подхода предложен алгоритм внедрения в работу подразделения базы данных для формирования ключевых индикаторов производительности и контроля.

Описаны ключевые этапы работы подразделения, атрибутный состав сущностей (множества), поступающих, обогащаемых и передаваемых на каждом этапе работы подразделения. Методом моделирования процесса выстроены ролевая модель, права доступа и редактирования для сотрудников. Предложены источники данных (справочники) для оптимизации и унификации процесса наполнения базы данных (кортежа). Предложен способ обращения к базе данных в надстройке Power Query Microsoft Excel, которая позволяет собирать данные из файлов всех основных типов данных, обрабатывать и дорабатывать полученные данные. На языке Python на основе данных построены математические и финансовые модели анализа данных (логистическая регрессия, дерево решений и метод дисконтированных денежных потоков) с целью прогнозирования расходов, сроков экспозиции активов и принятия решения об оптимальной стоимости постановки имущества на баланс Банка и цены реализации. На основе библиотек (matpotlib, seaborn, plotly) предложены варианты визуализации данных для менеджмента. На примере подразделения Банка описаны положительные эффекты и возможности, которые открываются перед менеджментом разного уровня в решении повседневных задач и планирования деятельности подразделения. Предложено техническое задание по разработке витрины реализации непрофильных активов на сайте Банка как среды накопления внешних данных для принятия гибких менеджерских решений.

Ключевые слова: непрофильный актив, процессный подход, база данных, Power Query, визуализация данных, математические и финансовые методы анализа данных, регрессионный анализ, дерево решений, метод дисконтированных денежных потоков.

Электронный архив наблюдательных данных астрофизической обсерватории

О.П. Желенкова, В.В. Витковский, Т.А. Пляскина

Аннотация: Архивная система обсерватории включает в себя хранилище цифровых данных и информационно-поисковую систему (ИПС) с динамическим веб-интерфейсом и http-доступом. На текущий момент в систему включены 16 цифровых коллекций наблюдательных данных (локальных архивов), полученных на разных приборах, работающих или работавших на телескопах обсерватории. Самые ранние данные относятся к концу 1994 года. В настоящее время активно пополняются 6 локальных архивов. Хранилище данных включает область временного хранения, расположенную на файл-сервере БТА, и область постоянного хранения. Область постоянного хранения это - CD/DVD-диски, жесткий диск выделенного архивного сервера и USB-диск большой емкости. Для сохранности данных при аварийных ситуациях и при возникающих дефектах носителей мы обеспечиваем хранение 2 полных копий на CD/DVD?дисках и двух копий архива на винчестере. Одна копия (A0) повторяет оптические диски, другая (A1), несколько по структуре каталогов модифицированная, используется ИПС. Цифровые носители и устройства чтения-записи данных нельзя отнести к устройствам длительного хранения, поэтому при долговременном хранении цифровых данных необходимо обеспечивать перенос информации на новый тип носителей каждые 5-10 лет. Копии архива A0 и A1 поддерживаются и для этой процедуры переписывания. Вариант архивных данных (A1) повторен на USB-диске с добавлением дампа таблиц и программ. Это резервная копия для восстановления информационной системы при аварийной ситуации на сервере. Для обеспечения модернизации ИПС мы поддерживаем две схемы базы данных — тестовую и рабочую. Разработки ведутся на тестовой схеме. При модификациях схемы после проведенного тестирования ИПС переключается на обновленную версию БД. Оригинальная копия A0 и наличие тестовой схемы позволяют выполнять модернизацию ИПС даже на уровне схемы таблиц. В настоящее время ИПС реализована на СУБД PostgreSQL 8.3.7.

Ключевые слова: цифровые коллекции экспериментальных данных, веб-доступ к архивам наблюдений, виртуальная обсерватория, предметно-ориентированные базы данных.

Электронная база данных по экспериментальным энергиям диссоциации связей органических соединений

Владимир Евгеньевич Туманов, Андрей Иванович Прохоров

1203-1216

Аннотация:

Представленная веб-база данных по экспериментальным гомолитическим энергиям диссоциации связей в органических соединениях предназначена для использования широким кругом химиков теоретиков и практиков в свободном доступе. В работе приведены краткий обзор источников значений энергии диссоциации связей органических молекул, которые вычисляются теоретически, измеряются экспериментально и оцениваются по кинетическим и термохимическим экспериментальным данным, и их представление в базе данных в интернете. Представлена веб база данных по гомолитическим энергиям диссоциации связей органических соединений. Приводимые значения энергий диссоциации связей вычислены по экспериментальным кинетическим и термохимическим данным. Приведены описания источников экспериментальных данных, классов органических соединений и методов расчета. Приведена логическая структура базы данных и дано описание основных полей ее таблиц. Представлена главная поисковая форма интерфейса базы данных и приведен пример результата поиска для конкретного органического соединения. Энергии диссоциации связи снижены до температуры 298,15 К, которая обычно отсутствует в большинстве источников. Аналоги настоящей базы уступают последней в учете температурных корреляций. В настоящее время ведутся работы по анализу и анализу опубликованных данных с учетом энтропийных эффектов.

Ключевые слова: электронный справочник, органические соединения, энергия диссоциации связи, база данных, интернет.

Цифровая платформа для интеграции и анализа данных геофизического мониторинга байкальской природной территории

Андрей Павлович Григорюк, Людмила Петровна Брагинская, Игорь Константинович Семинский, Константин Жанович Семинский, Валерий Викторович Ковалевский

303-316

Аннотация:

Представлена цифровая платформа для данных комплексного мониторинга опасных геодинамических, инженерно-геологических и гидрогеологических процессов, протекающих в регионе интенсивного природопользования центральной экологической зоны Байкальской природной территории (ЦЭЗ БПТ). Платформа предназначена для интеграции и анализа данных, поступающих с нескольких полигонов, расположенных в пределах ЦЭЗ БПТ, с целью оценки состояния геологической среды и прогнозирования проявлений опасных процессов. Платформа построена по клиент-серверной архитектуре. Хранение, обработка и анализ данных осуществляются на сервере, к которому пользователи могут обращаться через интернет посредством веб-браузера. Блочная структура сервера позволяет легко расширять набор процедур обработки и анализа данных, а также визуализации результатов. В настоящее время доступны несколько методов фильтрации данных (линейная частотная, Савицкого–Голея и другие), различные методы спектрального и вэйвлет-анализа, мультифрактальный и энтропийный анализ, анализ пространственных данных. Цифровая платформа была опробована на реальных данных.

Ключевые слова: геофизический мониторинг, цифровая платформа, предвестники, сейсмический прогноз, землетрясения.

Разработка модуля проверки данных для удовлетворения метрики устаревания

Айгуль Ильдаровна Сибгатуллина, Азат Шавкатович Якупов

159-178

Аннотация:

Из года в год возрастает объем мирового рынка больших данных. Их анализ является неотъемлемой частью для принятия немедленных и надежных решений. Технологии больших данных ведут к значительному снижению стоимости за счет использования облачных сервисов, распределенных файловых систем, когда возникает потребность в хранении больших объемов информации. Их аналитика неразрывно связана с понятием качества данных, что особенно важно, если они имеют определенный срок хранения – метрику устаревания – и мигрируют из одного источника в другой, увеличивая риск потери данных. Предупреждение негативных последствий достигается за счет процесса сверки данных – комплексной проверки больших объемов информации с целью подтверждения их согласованности.

В статье рассмотрены вероятностные структуры данных, которые могут быть использованы для решения задачи, а также предложена реализация – модуль проверки целостности данных с использованием фильтра Блума с подсчетом. Данный модуль интегрирован в Apache Airflow для автоматизации процесса.

Ключевые слова: большие данные, метрика устаревания, партиция, parquet файл, фильтр Блума.

Базы знаний для описания информационных ресурсов в молекулярной спектроскопии. 5. Качество экспертных данных

А.Ю. Ахлёстин, Н.А. Лаврентьев, А.И. Привезенцев, А.З. Фазлиев

Аннотация: Показано, что доверие к контенту информационных ресурсов можно оценивать с помощью критерия опубликования и разделять ресурсы на доверяемую и сомнительную части. Задача оценки доверия состоит их четырех подзадач: (1) построения мультимножеств физических величин, содержащихся в первичных источниках данных, (2) согласования значений физических величин, (3) формирования количественных ограничений для критерия опубликования в разных интервалах изменения физических величин и (4) декомпозиции экспертных данных. Кратко описаны критерии достоверности спектральных данных и ограничения необходимые для решения задач согласования данных. Представлено табличное представление результатов согласования. На примере вакуумных волновых чисел описаны ограничения характерные для критерия опубликования. Оценки доверия, полученные из решения задачи декомпозиции, представлены в форме OWL-онтологий. Построение онтологической базы знаний подобного типа для виртуальных центров данных в дисциплинах с большими объемами данных измерений обеспечит автоматический выбор информационных ресурсов с высокой степенью доверия.

Ключевые слова: спектроскопия, согласование данных, доверие к контенту ресурсов, критерий опубликования.

Семантический анализ документов в системе управления цифровыми научными коллекциями

Шамиль Махмутович Хайдаров

61-85

Аннотация: Предложены методы семантического анализа документов в системе управления цифровыми научными коллекциями, в том числе электронными научными журналами. Рассмотрены методы обработки документов, содержащих математические формулы, а также способы конвертации этих документов из формата OpenXML в формат TeX. Разработан алгоритм поиска по формулам в коллекциях математических документов, хранящихся в формате OpenXML. Алгоритм реализован в виде онлайн-сервиса на платформе science.tatarstan.

Ключевые слова: семантический анализ, издательские системы.

Применение синтетических данных в задаче обнаружения аномалий в сфере информационной безопасности

Артем Игоревич Гурьянов

187-200

Аннотация:

В настоящее время в машинном обучении высокую актуальность имеют синтетические данные. Современные алгоритмы генерации синтетических данных дают возможность генерации данных, очень близких по статистическим свойствам к исходным данным. Синтетические данные используются на практике в широком спектре задач, в том числе связанных с аугментацией данных.

Предложен метод аугментации данных, совмещающий подходы увеличения объема выборки с помощью синтетических данных и генерации синтетических аномалий. Метод использован для решения задачи в сфере информационной безопасности, заключающейся в поиске аномалий в журналах сервера с целью обнаружения атак.

Модель, обученная в рамках решения названной задачи, показала высокие результаты. Это демонстрирует эффективность использования синтетических данных для увеличения объема выборки и генерации аномалий, а также возможность с высокой результативностью использовать эти подходы совместно.

Ключевые слова: синтетические данные, обнаружение аномалий, информационная безопасность, генерация аномалий, аугментация данных, машинное обучение.

Новый метод описания вихревых ковариационных экологических данных

Равиль Рашидович Нигматуллин, Александр Алексеевич Литвинов, Сергей Игоревич Осокин

41-75

Аннотация:

Предложены основы оригинальной теории квазивоспроизводимых экспериментов (КВЭ), основанной на проверяемой гипотезе о наличии существенной корреляции (памяти) между последовательными измерениями. На основе этой гипотезы, которую авторы для краткости определяют как верифицируемый принцип частичной корреляции (ВПЧК), можно доказать, что существует универсальная подгоночная функция (УПФ) для квазивоспроизводимых (КВ) измерений. Другими словами, существуют некая общая платформа или «мост», на котором, образно говоря, «встречаются» истинная теория (претендующая на описание данных из первых принципов или проверяемых моделей) и эксперимент, предлагающий эту теорию для проверки измеренных данных, максимально «очищенных» от влияния неконтролируемых факторов и аппаратно-программной функции. Фактически предлагаемая теория дает потенциальному исследователю способ очистки исходных данных и в конечном итоге предлагает подгоночную кривую, которая описывает данные, является периодической и очищенной от набора неконтролируемых факторов. Окончательная подгоночная кривая соответствует идеальному эксперименту.

Предложенная теория была проверена на вихревых ковариационных экологических данных по количеству/балансу CH₄, CO₂ и паров воды H₂O в атмосфере, где расположены соответствующие детекторы для измерения содержания искомых газов.

Для этих проверенных данных вихревой ковариации, связанных с наличием в атмосфере двух газов CH₄, CO₂ и паров H₂O, не существует простой гипотезы, содержащей минимальное число подгоночных параметров, и, следовательно, подгоночная функция, следующая из этой теории, может служить единственным и надежным средством количественного описания такого рода данных, принадлежащих сложной системе. Следует также отметить, что окончательная подгоночная функция, очищенная от неконтролируемых факторов, становится периодической и соответствует идеальному эксперименту.

Обсуждены приложения этой теории, ее место среди других альтернативных подходов (особенно затрагивающих профессиональные интересы экологов) и её дальнейшее развитие.

Ключевые слова: квазивоспроизводимые эксперименты, сложные системы, верифицируемый принцип частичной корреляции, универсальная подгоночная функция, квазипериодические измерения, квазивоспроизводимые измерения, эффекты памяти, вихревая ковариация.

Инструмент последовательного снятия снимков агрегированных данных из потоковых данных

Артем Игоревич Гурьянов, Азат Шавкатович Якупов

414-436

Аннотация:

В современном мире потоковые данные получили широкое распространение во многих предметных областях. Высокую актуальность имеет решение задачи обработки потоковых данных в реальном времени, с минимальной задержкой.

При потоковой обработке данных часто применяются различные приближенные алгоритмы, имеющие гораздо более высокую эффективность по времени и памяти, чем точные алгоритмы. Кроме того, часто возникает потребность прогнозирования состояния потока.

Таким образом, в настоящее время существует потребность в инструменте последовательного снятия снимков агрегированных данных из потоковых данных, дающем возможность прогнозирования состояния потока и применения приближенных алгоритмов обработки потоковых данных.

Авторами статьи разработан такой инструмент, рассмотрены архитектура и механизм его функционирования, а также оценены перспективы его дальнейшего развития.

Ключевые слова: потоковые данные, потоковая обработка данных, анализ потоковых данных, материализованные представления, потоковые алгоритмы, приближенные алгоритмы, прогнозирование потока.

Решение задачи классификации эмоционального тона сообщения с определением наиболее подходящей архитектуры нейронной сети

Данис Ильмасович Багаутдинов, Рихам Салман, Владислав Алексеевич Алексеев, Рустамджон Муроджонович Усмонов

396-413

Аннотация:

Для определения наиболее эффективного подхода к решению задачи классификации эмоционального тона сообщения проведено обучение выбранных моделей нейронной сети на различных наборах обучающих данных. На основе такого показателя, как процентное соотношение правильно данных ответов на тестовом наборе данных, сравнены комбинации наборов обучающих данных и различных моделей, обученных на основе этих данных. Произведено обучение четырех моделей нейронной сети на трех различных наборах обучающих данных. В результате сравнения точности ответов каждой модели, обученной на разных обучающих данных, сделаны выводы о выборе модели нейронной сети, наиболее подходящей для решения поставленной задачи.

Ключевые слова: NLP, sentiment detection, neural networks, comparison of neural network models, LSTM, CNN, BiLSTM.

Инфраструктура пространственных данных Эстонии, созданная в соответствии в директивой Inspire

М.Я. Теэ, Т.Т. Ильвес

Аннотация: Статья описывает работы по созданию Эстонской инфраструктуры пространственных данных. Целью разработки является достижение доступности по предоставлению пространственных данных и метаданных, в соответствии требованиями директивы INSPIRE (INSPIRE). А так же процесса создания Геопортала Эстонии, состоящего из различных сервисов и административных инструментов, которые могут быть использованы для введения и редактирования пространственных данных и метаданных.

Ключевые слова: инфраструктура пространственных данных, INSPIRE, ArcGIS for INSPIRE, Эстония.

Информация о российских научных организациях в международных и русскоязычных источниках данных

Зинаида Владимировна Апанович

756-769

Аннотация:

Рассмотрены международные и русскоязычные источники данных, предоставляющие информацию о российских научных организациях. Продемонстрировано, что русскоязычные источники данных содержат больше информации о русскоязычных научных организациях, чем англоязычные, но эта информация остается недоступной для англоязычных источников данных. Также описаны эксперименты по сопоставлению и интеграции информации о российских научных организациях в международных и российских источниках данных. Рассмотрены такие источники данных, как GRID, русскоязычная и англоязычная Wikipedia, Wikidata и eLIBRARY.ru. Работа является промежуточным этапом на пути к созданию открытого и расширяемого графа знаний.

Ключевые слова: разноязычные графы знаний, идентификация сущностей, научные организации, корректность.

Формализация процессов формирования пользовательских коллекций в цифровом пространстве научных знаний

Николай Евгеньевич Каленов, Ирина Николаевна Соболевская, Александр Николаевич Сотников

433-450

Аннотация: Исследована задача формирования цифрового пространства научных знаний (ЦПНЗ). Рассмотрено отличие этого понятия от общего понятия пространства знаний. ЦПНЗ представлено как множество, содержащее объекты, верифицированные мировым научным сообществом. Формой структурированного представления цифрового пространства знаний является семантическая сеть, основной принцип организации которой основан на системе классификации объектов и последующем построении их иерархии, в частности, по принципу наследования. Введена классификация объектов, составляющих контент ЦПНЗ. Предложена модель ЦПНЗ как совокупности непересекающихся множеств, содержащих цифровые образы реальных объектов и их характеристики, обеспечивающие отбор и визуализацию объектов в соответствии с многоаспектными пользовательскими запросами. Определено понятие пользовательской коллекции, предложена иерархическая классификация типов пользовательских коллекций. Использование понятий теории множеств при построении ЦПНЗ позволяет разбивать информацию по уровням детализации и формализовать алгоритмы обработки пользовательских запросов, что проиллюстрировано конкретными примерами.

Ключевые слова: семантическая сеть, информационное пространство, научные знания, электронная библиотека, уровни детализации, иерархия информационных объектов.

Повышение качества метаданных научных публикаций с помощью отчетов Crossref

Алексей Викторович Ермаков

1117-1136

Аннотация:

Рассмотрены вопросы, связанные с повышением качества метаданных научных публикаций, размещаемых в библиографической базе данных Crossref. Всю информацию, содержащуюся в метаданных, полученных от издателей научных публикаций, Crossref анализирует и отображает в различных отчетах. Отчеты дают издателям представление о полноте и корректности представленных библиографических данных. Качество метаданных прямо или косвенно влияет на количество просмотров и ссылок на публикацию, соответственно, на рейтинги научных изданий, авторов и организаций.

Ключевые слова: метаданные публикаций, отчеты Crossref, цитирование, рейтинги научных изданий.

Алгоритмы формирования метаданных математических ретро-коллекций на основе анализа структурных особенностей документов

Полина Олеговна Гафурова, Александр Михайлович Елизаров, Евгений Константинович Липачёв

238-271

Аннотация:

Представлены решения основных задач, связанных с формированием цифровых математических коллекций из документов, изданных в доцифровой период, – такие коллекции обозначены в работе как ретро-коллекции. Приведены алгоритмы создания метаописания ретро-коллекций, основанные на анализе структуры математических документов и применении программных инструментов выделения метаданных. Дано описание ретро-коллекций, сформированных с помощью разработанных алгоритмов и включенных в состав фабрики метаданных цифровой математической библиотеки Lobachevskii-DML. Указаны схемы формирования метаданных и методы нормализации извлеченных метаданных в соответствии со схемами и требованиями интегрирующих математических библиотек.

Ключевые слова: Lobachevskii-DML, фабрика метаданных, управление метаданными, цифровая ретро-коллекция.

Предложения по наборам метаданных для научных информационных ресурсов ЕНИП РАН

А.А. Бездушный, А.Н. Бездушный, А.К. Нестеренко, В.А. Серебряков, Т.М. Сысоев

Аннотация: Рассматриваются вопросы формирования наборов элементов метаданных и онтологий для научных информационных ресурсов РАН в рамках проекта Единого Научного Информационного Пространства (ЕНИП) РАН. Рассматриваются потребности, цели и задачи организации ЕНИП РАН, как среды взаимосвязанных распределённых гетерогенных систем. Даётся представление о предметных областях и типах ресурсов, информацию о которых планируется представлять в ЕНИП. Описывается методика, используемая для описания схем метаданных, приводится список проанализированных стандартов и предложений по схемам метаданных, использованных при разработке схем ЕНИП. Рассматриваются примеры схем метаданных ЕНИП и XML-представления данных для обмена ими в рамках ЕНИП.

Запросы к нереляционным данным на естественном языке на основе большой языковой модели

Адильбек Омирбекович Еркимбаев, Владимир Юрьевич Зицерман, Георгий Анатольевич Кобзев

76-98

Аннотация:

В работе рассмотрены новые возможности организации запросов на естественном языке к научным локальным базам данных нереляционного типа. Проведенный анализ исследований, выполненных за последние годы, показал активное внедрение запросов на естественном языке к базам данных различного типа. Отмечено активное применение методов машинного обучения (нейронных алгоритмов). Показано широкое использование в последние два года большой языковой модели для подготовки запросов в различных языковых средах и областях знаний. Проведено исследование новых возможностей графовой базы данных AllegroGraph по использованию больших языковых моделей для организации поиска на естественном языке. Функционал базы данных изучен на примере системы метаданных по теплофизическим свойствам веществ в форме предметной онтологии «Термаль». Тестирование поисковых запросов в двуязычной (английская и русская) среде базы данных выявило в целом преодолимые проблемы и дает хорошие надежды на дальнейшее применение новых прикладных сервисов с использованием больших языковых моделей.

Ключевые слова: запрос на естественном языке, большая языковая модель, эмбеддинг, нереляционные базы данных, графовая база данных, онтология предметной области.

Визуализация цифровых 3D-объектов при формировании виртуальных выставок

Николай Евгеньевич Каленов, Сергей Александрович Кириллов, Ирина Николаевна Соболевская, Александр Николаевич Сотников

418-432

Аннотация: Представлены подходы к решению задачи создания реалистичных интерактивных 3D веб-коллекций музейных экспонатов. Рассмотрено представление 3D-моделей объектов на основе ориентированных полигональных структур. Описан метод создания виртуальной коллекции 3D-моделей по технологии интерактивной анимации. Также показано, как на основе отдельных кадров экспозиции с помощью методов фотограмметрии строится высококачественная 3D-модель. Приведены результаты расчетов для построения 3D-моделей реальных музейных экспонатов. Для создания 3D-моделей с целью предоставления их широкому кругу пользователей через интернет использована технология интерактивной анимации. Приведены различия между представлениями цифровых 3D-моделей. Описана технология создания цифровых 3D-моделей объектов из фондов Государственного биологического музея им. К.А. Тимирязева и формирования на их основе средствами электронной библиотеки «Научное наследие России» виртуальной выставки, посвященной научной деятельности М.М. Герасимова и его антропологическим реконструкциям. Выставка наглядно продемонстрирована возможности интеграции информационных ресурсов средствами электронной библиотеки. Формат виртуальных выставок позволил объединить ресурсы партнеров для предоставления широкому кругу пользователей коллекций, хранящихся в музейных, архивных и библиотечных фондах.

Ключевые слова: фотограмметрия, 3D-моделирование, интерактивная мультипликация, веб-дизайн, полигональное моделирование.

Методы и алгоритмы повышения выразительности связанных данных (обзор)

Ольга Авенировна Невзорова

808-834

Аннотация: В обзорной статье рассмотрены методы и алгоритмы повышения выразительности связанных данных, подготовленных для публикации в Вебе. Представлены основные подходы к обогащению онтологий, описаны методы, на которых они базируются, а также приведен инструментарий, реализующий эти подходы и инструменты применения соответствующих методов.Основным этапом в общей схеме жизненного цикла данных в облаке открытых связанных данных является этап построения набора связанных RDF-триплетов. Для улучшения классификации данных и анализа их качества применяются различные методы повышения выразительности связанных данных. Основные идеи рассматриваемых методов связаны с обогащением существующих онтологий (расширением базовой схемы знаний) путем добавления или совершенствования терминологических аксиом. Методы обогащения опираются на методы, применяемые в различных областях, таких как представление знаний, машинное обучение, статистика, обработка текстов на естественном языке, анализ формальных понятий и теория игр.

Ключевые слова: связанные данные, онтология, обогащение онтологии, семантический веб.

База данных RePEc и ее российский партнер Socionet

Т. Крихель, С. Паринов

Аннотация: Онлайновая экономическая библиотека RePEc.org занимает второе место в мире (после arXiv.org) по количеству бесплатно предлагаемых научных материалов. У RePEc совсем другая модель организации пополнения базы данных по сравнению с arXiv и совсем другое содержание предоставляемой информации. Предлагаемая статья посвящена описанию этих особенностей.
Модель организации RePEc имеет архитектуру открытого типа. База данных открыта в двух смыслах: 1)для пополнения (организации могут помещать в нее свои материалы), а так же для развития (разработчики могут создаваться различные сервисы для пользователей). Библиотеки традиционного типа – включая многие электронные библиотеки – закрыты в обоих направлениях. В данной статье также обсуждается особенность функционального соединения с RePEc с системой Соционет.
Что касается содержания предоставляемой информации, база данных RePEc нацелена на создание реляционного набора данных о научных ресурсах, а также связанных с ними сведений. Это должно включать данные обо всех авторах, статьях и организаций, имеющих прямое отношение к исследованиям по экономике. Подобный амбициозный проект может быть реализован только в случае, если затраты на сбор данных будут децентрализованы и малы, а также если выгоды от использования данной информации будут достаточно велики.

1 - 25 из 258 результатов 1 2 3 4 5 6 7 8 9 10 > >>