Настоящий номер журнала «Электронные библиотеки» является второй частью тематического выпуска (первая часть – №5 за 2021 год) и включает статьи, подготовленные их авторами на основе материалов, представленных и доложенных на XXIII Всероссийской научной конференции «Научный сервис в сети Интернет». Конференция была проведена с 20 по 23 сентября 2021 года в режиме онлайн и традиционно была посвящена направлениям и тенденциям использования интернет-технологий в современных научных исследованиях. Организатором конференции был Институт прикладной математики им. М.В. Келдыша Российской академии наук.
М.М. Горбунов-Посадов, А.М. Елизаров
Опубликован: 26.01.2022
Весь выпуск
Статьи
Памяти Александра Николаевича Томилина
В статье описан научный путь профессора, д. ф. м. н. Александра Николаевича Томилина (1933-2021).
Семантическая библиотека как средство определения научной предметной области
Рассмотрены информационная система, предназначенная для представления предметной области, связанной с наукой, и ее особенности. Выделены общие концепции для формального описания такой предметной области в базе знаний семантической библиотеки. Особенность этих областей заключается в том, что структура данных подвержена частым изменениям. Поэтому средство организации знаний, в качестве которого выступает семантическая библиотека, должно быть достаточно универсальным и не требовать глубоких технических познаний. В работе приведены описание функциональности системы и ее использования при настройке на предметную область. Для каждой области набор ресурсов может отличаться как по формату, так и по набору самих ресурсов. Набор понятий, формирующих описание контента библиотеки, должен быть настолько универсальным, чтобы мог адаптироваться под нужды конкретной области. Для представления данных использованы метаданные трех уровней.
О модели поиска синонимов
Рассмотрена задача нахождения наиболее релевантных документов в результате расширенного и уточненного запроса. Для ее решения предложены модель поиска и механизм предварительной обработки текста, а также совместное использование поисковой системы и модели, построенной на основе индекса с помощью алгоритмов word2vec для генерации расширенного запроса с синонимами и уточнения результатов поиска на основе подбора похожих документов в цифровой семантической библиотеке. В работе исследуется построение векторного представления документов применительно к массиву данных цифровой семантической библиотеки LibMeta. Решалась задача обогащения пользовательских запросов синонимами. При построении модели поиска совместно с алгоритмами word2vec использован подход «сначала индексация, затем обучение», что позволяет получить более точные результаты поиска. Обучение модели проводилось на базе контента библиотеки для предметной области «Математика». Приведены примеры расширенного запроса с использованием синонимов.
Извлечение знаний из Wikidata для формирования метаданных документов электронных математических коллекций
Представлены методы создания цифровых математических коллекций, включающих неструктурированные наборы документов. Эти наборы содержат материалы сборников научных конференций, а также статьи из архивов математических журналов «доцифрового» периода.
Формирование обязательного набора метаданных названных документов произведено с помощью программных инструментов фабрики метаданных цифровой математической библиотеки Lobachevskii DML. Для уточнения и пополнения наборов метаданных документов цифровых коллекций использованы методы извлечения знаний из Wikidata.
Разработана система SPARQL-запросов для поиска в Wikidata информации о документах электронных коллекций и их авторах. Обозначен набор сущностей Wikidata, определяющих признаки поиска, а также последующую фильтрацию полученных результатов.
Предложены методы уточнения и дополнения библиографических ссылок, приведенных в статьях. При формировании метаданных документов ретро-коллекций произведен поиск в Wikidata сведений о годах жизни авторов статей, а также URL веб-страниц с информацией о статьях и их авторах. Приведены результаты формирования нескольких новых электронных коллекций цифровой библиотеки Lobachevskii-DML.
Рейтинг журнала в библиографической базе
Инструмент построения рейтингов научных журналов является одним из востребованных сервисов библиографических баз. Задача построения рейтинга обычно делится на две основные подзадачи: определение референтной группы журналов и вычисление показателя рейтинга для журналов этой группы. Практика показывает, что для корректного сопоставления журналов необходимым условием является ограничение референтной группы исключительно журналами определенной тематики. В случае методических ошибок, допущенных на этапе выделения референтной группы, значения показателя журналов в рейтинге могут сильно отличаться от ожидаемых.
Например, в рейтинге журналов в Российском индексе научного цитирования (РИНЦ) по двухлетнему импакт-фактору в тематическом направлении «Математика» классические фундаментальные математические журналы вопреки ожиданиям не выходят на первые позиции рейтинга. Первые позиции заняли журналы, для которых математика не является доминирующей профильной дисциплиной. Анализ статистических данных о тематике публикуемых статей и цитирований в журналах, занимающих лидирующие позиции рейтинга РИНЦ, показывает, что на показатели рейтинга существенно повлияла мультидисциплинарность этих журналов.
Отмеченное недоразумение подводит к мысли о том, что в подсчет рейтинга в данном случае следовало вовлекать не все статьи журнала, а только относящиеся к данному тематическому направлению. Вместе с тем вопросы вызывает и сложившаяся схема тематической классификации направлений. Более перспективной представляется набирающая популярность классификация «снизу вверх», работающая на представительном массиве статей. Здесь тематические кластеры вычленяются на основе понятия близости статей, трактуемого как близость их библиографических связей. И далее тематическая принадлежность статьи не назначается волевым решением автора или редакции, а строго формально вычисляется на основе ее библиографического списка.
Перспективы функционального программирования параллельных вычислений
Статья посвящена результатам анализа современных тенденций функционального программирования, рассматриваемого как метапарадигма решения проблем организации параллельных вычислений и многопоточных программ для многопроцессорных комплексов и распределённых систем. С учетом мультипарадигмальности параллельного программирования использован парадигмальный анализ языков и систем функционального программирования. Такой анализ позволяет снижать сложность решаемых задач методами декомпозиции программ на автономно развиваемые компоненты, оценивать их сходство и различия. Учёт парадигмальных особенностей необходим при прогнозировании хода процессов применения программ, а также при планировании их изучения и разработки. Есть основания рассчитывать, что функциональное программирование помогает повышать производительность программ. Показано разнообразие парадигмальных характеристик, присущих подготовке и отладке долгоживущих программ параллельных вычислений.
Повышение качества метаданных научных публикаций с помощью отчетов Crossref
Рассмотрены вопросы, связанные с повышением качества метаданных научных публикаций, размещаемых в библиографической базе данных Crossref. Всю информацию, содержащуюся в метаданных, полученных от издателей научных публикаций, Crossref анализирует и отображает в различных отчетах. Отчеты дают издателям представление о полноте и корректности представленных библиографических данных. Качество метаданных прямо или косвенно влияет на количество просмотров и ссылок на публикацию, соответственно, на рейтинги научных изданий, авторов и организаций.
Электронные архивы длительного срока жизни: модернизация и интеграция
За период около двадцати лет в Институте систем информатики им. А.П. Ершова Сибирского отделения РАН (ИСИ СО РАН) были созданы информационные системы исторической направленности: Электронный архив академика А.П. Ершова, Фотоархив Сибирского отделения РАН, Архив газеты «Наука в Сибири», Открытый архив СО РАН и др. У каждого из этих ресурсов есть своя специфика, но в целом их контент базируется на общей социальной и территориальной основе научной и общественной деятельности СО АН СССР/РАН и Новосибирского Академгородка. В статье рассмотрены некоторые проблемы интеграции/дезинтеграции разрозненных электронных ресурсов на общую платформу на базе имеющихся и создаваемых инструментов.
Издания XIX-XX века о телеграфе (по материалам электронных библиотек)
В позапрошлом столетии произошли революционные изменения в передаче информации. Для функционирования оптического телеграфа, появившегося в конце XVIII века, были необходимы громоздкие башни для прямой видимости сигналов семафора. Сто лет спустя протяжённость телеграфных линий составляла сотни тысяч километров; на рубеже веков начались первые опыты применения беспроводного телеграфа. Информация об этом отражена в многочисленных брошюрах, книгах, периодических изданиях того времени. Ещё через сто лет многие из этих материалов стали общедоступными благодаря развитию интернета и электронных библиотек; они интенсивно сканируются и выкладываются в Сеть. Взрывной рост количества электронных библиотек и их информационного наполнения сделал возможным появление данной работы. Её цель – проследить эволюцию технологий и процессов передачи информации, отражённую в литературе, с помощью самых разнообразных электронных библиотек – от грандиозных проектов Библиотеки Конгресса и Google Books с их миллионами оцифрованных книг до скромных частных собраний, посвящённых локальным темам. Использованы материалы более 20 электронных библиотек.
Редактор интерактивной структуры для инструмента генерации сценарных прототипов
Задача автоматизации рутинной работы сценаристов компьютерных игр, нарративных дизайнеров, поставленная в ранних работах, получила свое продолжение в настоящей работе. Рассмотрены вопросы визуализации разветвленных структур повествования компьютерных игр, проведен анализ различных подходов визуализации сюжета и других важных составляющих видеоигры, выбран технологический стек и приведены конкретные решения для хранения в виде структурированного сценария, позволяющего генерацию продолжения сюжетных веток и тестирование этапа повествовательного прототипирования при помощи автоматически генерируемой текстовой новеллы.
Электронная база данных по экспериментальным энергиям диссоциации связей органических соединений
Представленная веб-база данных по экспериментальным гомолитическим энергиям диссоциации связей в органических соединениях предназначена для использования широким кругом химиков теоретиков и практиков в свободном доступе. В работе приведены краткий обзор источников значений энергии диссоциации связей органических молекул, которые вычисляются теоретически, измеряются экспериментально и оцениваются по кинетическим и термохимическим экспериментальным данным, и их представление в базе данных в интернете. Представлена веб база данных по гомолитическим энергиям диссоциации связей органических соединений. Приводимые значения энергий диссоциации связей вычислены по экспериментальным кинетическим и термохимическим данным. Приведены описания источников экспериментальных данных, классов органических соединений и методов расчета. Приведена логическая структура базы данных и дано описание основных полей ее таблиц. Представлена главная поисковая форма интерфейса базы данных и приведен пример результата поиска для конкретного органического соединения. Энергии диссоциации связи снижены до температуры 298,15 К, которая обычно отсутствует в большинстве источников. Аналоги настоящей базы уступают последней в учете температурных корреляций. В настоящее время ведутся работы по анализу и анализу опубликованных данных с учетом энтропийных эффектов.
Дальнейшее развитие исследований полей давления в арктическом регионе России
Представлены результаты исследований атмосферного давления в Арктическом регионе России в период с 1948 по 2008 годы. Проведен анализ климатического сезонного хода полей атмосферного давления. В качестве основного метода исследования использован вероятностный и статистический анализ временных рядов поля давления длиной в 60 лет в фиксированных точках области Арктической зоны России. Всего было исследовано около 90000 ежедневных (с шестичасовым шагом) значений давления. На основе этих данных построен климатический сезонный ход как осреднение значений данного временного ряда в каждой точке пространства и для фиксированной даты. Изучены характеристики сезонного хода, его амплитуда и фаза. Эти характеристики были проанализированы, проведена их геофизическая интерпретация. В частности, определены минимальное и максимальное значения ряда по всей области и построены временные ряды этих характеристик. Показано, что отклонение носит несимметричный характер, это составляет неочевидный результат исследований. Для максимума и минимума построены наилучшие аппроксимации, и эти аппроксимации протестированы известными методами статистического анализа, включая методы максимального правдоподобия, наименьших квадратов и методы (критерии) согласия, в частности, χ2-критерий. Проведенное исследование имеет приложение как чисто физическое (позволяет объяснить природу, генезис и распространение крупномасштабных атмосферных образований в климатическом году), так и прогностическое (позволяет понять и отследить тенденции в климате, а также количественно оценить масштабы и изменчивость крупномасштабных атмосферных процессов). Численные расчеты выполнялись на суперкомпьютере Ломоносов-2 Московского государственного университета имени М.В. Ломоносова.