• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Как в библиографической ссылке «На лету» формируется дата размещения последней версии публикации

Михаил Михайлович Горбунов-Посадов
554-565
Аннотация:

Размещенную в интернете научную работу, которую ее автор постоянно поддерживает в актуальном состоянии, будем называть живой публикацией. У жанра живой публикации есть множество привлекательных черт. Однако он требует определенного расширения состава метаатрибутов публикации: наряду с традиционными атрибутами здесь на первый план выдвигается дата появления очередной, свежей редакции. Такая дата размещается на видном месте в тексте публикации. Наряду с этим весьма желательной становится включения такой динамически («на лету») формируемой даты в библиографическую ссылку на живую публикацию.


В статье рассмотрены применяющиеся сейчас способы динамического извлечения искомой даты для простой онлайновой публикации, для публикации, получившей DOI посредством Crossref, и для публикаций, размещенных в arXiv.org и preprints.org.

Ключевые слова: живая публикация, динамический компонент библиографической ссылки, свежая дата редакции, Crossref, arXiv.org, Preprints.org.

Живые публикации завоевывают популярность

Михаил Михайлович Горбунов-Посадов
819-829
Аннотация:

Живая публикация – новый жанр представления результатов научных исследований, где научная работа размещается в интернете, а затем постоянно развивается и совершенствуется ее автором. Серьезные ошибки и опечатки больше не являются фатальными и не преследуют автора всю оставшуюся жизнь. Читатель живой публикации знает, что автор методично отслеживает и отражает в своем тексте изменения, происходящие в данной отрасли науки. В то же время российский автор, поддерживающий живую публикацию, сейчас безнадежно проигрывает по многим библиометрическим показателям, облюбованным консервативными чиновниками от науки. Живая публикация стимулирует развитие библиографического аппарата. Размещаемая в онлайне библиографическая ссылка вскоре обязана будет содержать такой важный для читателя, обновляемый «на лету» атрибут, как дата последней редакции живой публикации. Следует ожидать, что по мере распространения живой публикации в научном мире забота автора об эволюции своего онлайна станет сродни родительской заботе о развитии ребенка, а интернет на радость читателю обогатится научными трудами, не теряющими своей актуальности с течением времени.

Ключевые слова: научная публикация, динамический контент, версии статьи, дата последнего обновления.

Научные публикации в России. Что нового

382-389
Аннотация: Представлены события, происходившие в последнее время в мире российских научных публикаций. Наблюдается медленное сползание в сторону платного доступа части академических журналов, размещенных в открытом доступе в 2018 году. В Европейском союзе объявлен план массового перехода научных журналов к открытому доступу. Внедряются новые модели существования научной публикации. Отчетность по публикациям, затребованная Минобрнауки в 2019 году, не учитывает масштабы читательской аудитории статьи. Ни Минобрнауки, ни ВАК никак не поощряют размещение публикации в открытом доступе. В РИНЦ началась борьба с широко распространенной жульнической торговлей цитированиями статьи, однако ВАК эта деятельность не заинтересовала. Получил распространение внутренне противоречивый термин «автоплагиат», которым широко клеймят авторов и издания за множественные публикации.
Ключевые слова: открытый доступ, «план S», административная оценка статьи, сериальные издания, онлайновый читатель, индекс Хирша, РИНЦ, Диссернет, автоплагиат.

Идентификация авторов в рамках предметной области в семантической библиотеке

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова
198-217
Аннотация:

Рассмотрены особенности задачи идентификации авторов и определения авторского вклада в публикации в цифровых библиографических коллекциях. Особенности проблемы недостаточной идентификации проявляются в повторах информации, двойниковании, наличии авторов с полностью совпадающими именами, самоцитировании, автоплагиате и собственно плагиате. Предлагается использовать информацию о публикациях, которая уже накоплена в цифровой библиотеке в виде связанных данных предметной области и множества данных тезауруса адресата, как автора и пользователя библиотеки. Эта информация содержит связи, благодаря которым для идентификации авторства можно использовать контексты ключевых слов, множества соавторов и ассоциативные связи терминов в словарях и тезаурусах. Важно, что рассматривается массив научных публикаций, поскольку они имеют сложившуюся традиционную структуру, что позволяет сравнивать фиксированные элементы текста (аннотации, ключевые слова, коды классификаторов и т. д.). Таким образом, даже при полном совпадении имен в публикациях можно ставить вопрос об авторстве, если в цифровой библиотеке публикации соответствуют различным предметным областям. Разрешение таких противоречий осуществляется путем оценки множества связей всех элементов вторичной информации о публикации. Результатом сравнения может быть добавление автора в некоторую предметную область, т. е. расширение тезауруса адресата и персонального тезауруса автора, или появление в библиотеке полных тезок, но из разных областей знаний. Показано, что современные средства анализа данных позволяют оценить вклад автора в публикацию, несмотря на то, что конечно, реальный вклад в научное исследование может оценить только научное сообщество.

Ключевые слова: сравнение научных текстов, семантический поиск, тезаурус для онтологии знаний, информационный запрос с помощью тезауруса, семантические библиотеки, способы идентификации авторов, тезаурус адресата, вторичная информация, частотный словарь индивидуума, LibMeta.

Модель для интеграции публикации и cохранения журнальных статей

Хокинс Кевин С.
Аннотация: Описаны политика, технические и организационные проблемы в деятельности библиотек по сохранению материалов журналов, издаваемых онлайн. Поскольку библиотеки все чаще участвуют в процессах журнальных публикаций, качественный цифровой репозиторий HathiTrust может служить естественным местом для архивации и предоставления доступа к журнальным публикациям, а также их долгосрочного хранения и обеспечения режима видимости. Библиотека Мичиганского университета финансирует создание системы mPach полного публикационного цикла (с открытым исходным кодом), которая обеспечивает размещение документов в репозитории HathiTrust как побочный результат процесса публикации вместо того, чтобы осуществлять такое размещение после завершения этого процесса. В статье представлены архитектура системы mPach, описаны предусмотренные бизнес-процессы, а также планы по созданию общей инфраструктуры для публикации журналов открытого доступа.
Ключевые слова: журналы, издаваемые онлайн, цифровой репозитарий HathiTrust, журналы открытого доступа, система mPach полного публикационного цикла.

Инфраструктура научных информационных ресурсов для непрерывного доступа к спутниковым данным исследования Земли из космоса

Е.Б. Кудашев
Аннотация: В статье рассматриваются проблемы формирования e-Science Infrastructure для организации непрерывного доступа к спутниковым данным и обмена огромными потоками данных в связи с актуальной задачей интеграции информационных ресурсов. В России спутниковые данные рассредоточены в региональных спутниковых центрах данных. Их использование зачастую ограничено рамками конкретного проекта, в котором они были созданы. Чрезвычайно затруднены поиск ресурсов, доступ к данным и обмен данными. Многие ведомства и спутниковые центры пользуются собственными форматами представления данных, протоколами обмена, созданными достаточно давно и потому не полностью гармонизированными с современными международными правилами и стандартами. Одной из основных проблем, связанных с организацией хранения больших объемов данных Дистанионного Зондирования Земли (ДЗЗ) и непрерывного доступа к спутниковым ресурсам, является потребность интеграции различных поставщиков данных в единую информационную систему, позволяющую повысить эффективность научных исследований в области ДЗЗ. Предложены и обоснованы принципы и архитектура объединенной электронной e-Инфраструктуры непрерывного доступа к спутниковым данным. Описание геопространственных данных определено международными стандартами ISO 19115:2003 Geographic information – Metadata, ISO 19115-2:2005 Geographic information – Metadata. – Part 2: Extensions for imagery and gridded data. Существуют прототип FGDC-STD-001-1998 названных стандартов США и российский профиль стандарта ISO 19115 в виде документа ГОСТ Р 52573-2006 “Географическая информация. Метаданные.” Метаданные на текстовые материалы в сетях формируются с использованием стандарта Dublin Core. Единая политика администрирования е-Инфраструктуры обеспечивает согласованные между участниками правила доступа и использования ресурсов, унифицированные подходы к обеспечению информационной безопасности. Гарантией доступности и безопасности данных является проведение единой политики управления данными. Требование свободного информационного обмена реализуется путем задействования стандартизированных сетевых протоколов обмена данными и языков описания данных и построения запросов (прежде всего, SQL и XML). Интероперабельность обеспечивается глобальной унификацией технических регламентов, протоколов передачи и форматов данных, а также метаданных и поддерживается целой группой специально разрабатываемых стандартов (ISO/IEC 11179 Information technology — Specification and standardization of data elements; ISO 19113:2002 Geographic information — Quality principles; ISO 19114 Geographic information — Quality evaluation procedures и др.). Разработана архитектура e-Инфраструктуры непрерывного доступа к спутниковым данным, состоящая из компонент: 1) ГИС-сервер управляет геоинформационными ресурсами (карты, изображения, цифровые модели местности, текстуальная информация и т. д.) и транслирует их веб-приложениям в виде отдельных геосервисов; 2) Веб-сервер предназначен для хранения и управления геопорталом. Структурно и функционально Веб- и ГИС-сервера могут быть развернуты на отдельных компьютерах; 3) Геопортал - платформа для создания распределенной среды интеграции геоинформационных данных. Геопортал как единая точка входа в распределенную среду данных представляет из себя совокупность отдельных приложений и сервисов. Используется для публикации, администрирования и поиска стандартизированных геоинформационных ресурсов. Геопортал расположен на веб-сервере и является клиентским приложением ГИС-сервера. Пользователи, взаимодействуя с ним, вызывают сервисы, которые являются посредниками между веб-сервером и ГИС-сервером и обращаются к ГИС-серверу через его компонент SOM за необходимым инструментарием (геосервисами); 4) Сервисы каталогов - предназначены для доступа, поиска, накопления, обработки метаданных геопространственных ресурсов; сервисы обеспечивает общий механизм для классификации, регистрирования, публикации, поиска, хранения и доступа к метаинформации об имеющихся в сети геоинформационных ресурсах. Сервисы каталога предоставляют метаданные о зарегистрированных геоинформационных ресурсах, поддерживают формирование запросов на информацию по типам ресурсов. Они позволяют публиковать, создавать и редактировать наборы метаданных для геопространственных данных, геопространственных сервисов и геоссылок; 5) Сервис данных - обеспечивает доступ к содержанию ресурсных информационных материалов, которые находятся в базах и банках геоданных. Каждой единице ресурсов, с которыми работает этот сервис, присваивается уникальное имя. Для повышения скорости поиска осуществляется индексация ресурсов; 6) База моделей тематических задач ДЗЗ - предназначена для хранения моделей тематических задач ДЗЗ и позволяет с помощью интерфейса программы-планировщика выбрать наиболее адекватную (релевантную) модель в соответствии с поставленной задачей; 7) Программное обеспечение как сервис (Software as a Service (SaaS)). SaaS подразумевает предоставление приложений для конечного пользователя в виде сервиса «по требованию» вместо его установки на конкретном рабочем месте или на собственном сервере. В рамках “облачных” вычислений существуют и другие направления: платформа как сервис и инфраструктура как сервис. 8) Инфраструктура как сервис (Infrastructure as a Service (IaaS)) – охватывает аппаратные средства и технологию для компьютерных вычислений и хранения данных, операционные системы и другую инфраструктуру, которые предоставляются не как локальные ресурсы, а опосредованно – через обращение к сервисам, размещенным на стороне провайдера. 9) Клиентские ГИС-приложения - устанавливаются на конечных устройствах локальных и удаленных пользователей и подключаются по протоколу HTTP к геопорталу по сетям LAN или WLAN для поиска, публикации и сохранения стандартизированных геоинформационных данных.
Ключевые слова: инфраструктура научных данных, электронная наука, данные наблюдения Земли из космоса, научная электронная инфраструктура, открытая инфраструктура данных, управление данными.

Cистема поддержки принятия решений при выборе источников информации в сетях цитирования

Инна Геннадьевна Ольгина
76-96
Аннотация:

С появлением науки о сетях стало возможным исследовать сложные сетевые системы, в том числе социальные и информационные, посредством представления их в виде графовых моделей. Рост в геометрической прогрессии общего объема научных публикаций обуславливает актуальность задач анализа их взаимосвязей. В науке о сетях для решения данных задач разрабатываются модели и методы, относящиеся к сфере так называемых сетей цитирования. Однако сетевые метрики не используются при анализе публикаций в базах цитирования.


В работе рассмотрены вопросы создания системы поддержки принятия решений при выборе источников информации на основе данных о цитировании научных публикаций. Разработан программный комплекс для принятия решений по определению важности публикации в определенной тематической области. В основу работы этого программного комплекса заложен метод ранжирования публикаций по важности на основе анализа сетей цитирования, позволяющий выявить публикации, которые явно не выделяются в чистом виде при ранжировании на основе известных библиометрических показателей или известных мер центральности узлов. Проведены исследование и сравнительный анализ программного обеспечения для визуализации и исследования всех видов графов и социальных сетей. Выполнены исследования, подтверждающие эффективность предлагаемой системы поддержки принятия решений при выборе источников информации.

Ключевые слова: сеть цитирования, публикация, наукометрия, система поддержки принятия решений, архитектура программного комплекса, сетевой анализ, граф.

Семантический анализ документов в системе управления цифровыми научными коллекциями

Шамиль Махмутович Хайдаров
61-85
Аннотация: Предложены методы семантического анализа документов в системе управления цифровыми научными коллекциями, в том числе электронными научными журналами. Рассмотрены методы обработки документов, содержащих математические формулы, а также способы конвертации этих документов из формата OpenXML в формат TeX. Разработан алгоритм поиска по формулам в коллекциях математических документов, хранящихся в формате OpenXML. Алгоритм реализован в виде онлайн-сервиса на платформе science.tatarstan.
Ключевые слова: семантический анализ, издательские системы.

Публикация данных об Особо Охраняемых Природных Территориях в пространстве Linked Open Data

К.А. Кузнецов, В.А. Серебряков, К.Б. Теймуразов
Аннотация: В этой статье предлагается проект системы публикации данных об Особо Охраняемых Природных Территориях (ООПТ) в пространстве Linked Open Data. Описана общая архитектура системы, принципы работы модулей связывания, публикации и интеграции данных. Также предлагается онтология ООПТ, основанная на европейских стандартах INSPIRE.
Ключевые слова: система интеграции пространственных данные, Linked Open Data, наборы RDF-связей, подсистема публикации данных, связывание данных.

Исследование контекстов экосистемы «Цифрового туризма»

Ольга Витальевна Кононова, Дмитрий Евгеньевич Прокудин, Елена Николаевна Тупикина
339-370
Аннотация:

Современные информационно-коммуникационные технологии, элементы цифровизации постоянно и стремительно развиваются, что, в свою очередь, оказывает непосредственное влияние на все сферы человеческой деятельности. В свете последних событий, связанных с коллапсом туристического бизнеса из-за COVID-19, большой научный интерес проявляется к сфере услуг, а именно, к сфере «цифрового туризма». Цифровой туризм опирается на широкое внедрение новых технологий, таких как социальные сети и мобильные технологии, умные устройства и датчики для сбора и использования огромного количества данных для создания новых ценностных предложений. В связи с этим авторами поставлена цель – представить обзор литературы по «цифровому туризму» с позиций научного и медиа дискурса. Авторами представлен комплексный науковедческий подход, включающий последовательное выполнение всех этапов обзора от определения терминологического ядра междисциплинарного направления, формирования поисковых запросов, каскадного поиска, подбора и контент-анализа материалов до выявления и экспликация контекстов. Источниками информации для подготовки обзора выступили публикации из академических баз данных: Web of Science, Science-Direct, Scopus, GoogleScholar, eLibrary, Киберленинка, а также материалы и публикации в русскоязычных СМИ – Интегрум.


Полученные результаты будут полезны ученым при определении перспективных направлений исследований в области «цифрового туризма», а также позволят углубить знания о механизмах поиска, сбора и анализа данных и интегрированных и аналитических средах.

Ключевые слова: информационно-коммуникационные технологии, цифровые трансформации, цифровой туризм, электронный туризм, eTourism, smart tourism.

Развитие информационной системы регистрации результатов интеллектуальной деятельности сотрудников научного учреждения

Светлана Александровна Власова, Николай Евгеньевич Каленов
770-793
Аннотация:

Описана разработанная авторами веб-система, реализующая сервисы, связанные с формированием и предоставлением многоаспектной информации о результатах научной деятельности (публикациях, авторских свидетельствах и докладах на научных мероприятиях) сотрудников организации или группы организаций. Система ориентирована как на конечного пользователя, заинтересованного в получении конкретных данных, так и на административный персонал, формирующий отчетные материалы для вышестоящей организации. Информационная база системы содержит связанные данные о следующих классах объектов: персоны (авторы), организации и их подразделения; публикации на аналитическом, монографическом и сводном уровнях; авторские свидетельства; научные мероприятия (конференции, симпозиумы, семинары); доклады. В состав системы входят два модуля – административный, предназначенный для ввода и редактирования данных, и пользовательский, который представляет собой специальный поисковый аппарат, осуществляющий поиск информации, ее визуализацию, навигацию по связанным ресурсам и экспорт данных. Отличительной особенностью системы является введенное понятие «эквивалентных» объектов. Эквивалентными считаются объекты, представленные в системе различными метаданными, но относящимися к одной физической сущности. Такими объектами являются «персоны», соответствующие одному автору с различными написаниями фамилии в библиографических описаниях публикаций; организации, имеющие различные варианты названий; статьи, опубликованные без изменений на различных языках. В соответствии с современными требованиями к отчетности по публикациям в системе отражаются источники финансирования научных исследований, а также аффилиации каждого автора, указанные в статьях.

Ключевые слова: научные труды, научная деятельность, автоматизированная система, база данных, отчеты, сетевые технологии.

Алгоритм определения переводов статей с использованием статистических данных

Александр Сергеевич Козицын, Сергей Александрович Афонин, Андрей Александрович Зензинов
494-505
Аннотация: В настоящее время происходит активное внедрение наукометрических систем для автоматизации процесса анализа эффективности деятельности научных организаций с целью применения различных методов стимулирования научной деятельности. Одними из наиболее важных индикаторов являются количество публикаций и их цитируемость. Для оценки этих показателей необходимы средства автоматизированного построения связей между оригинальными статьями и их переводами. В настоящей работе проанализированы существующие методы оценки близости оригинального текста и его возможного перевода, показана их недостаточная эффективность для построения связей между статьями и описаня разработанный авторами метод автоматического поиска переводов статей в больших коллекциях библиографических данных. Особенностью разработанного алгоритма является использование статистических данных о публикации статей в различных журналах и информации о соавторах анализируемых статей. Представленный в настоящей работе алгоритм позволяет осуществлять поиск переводов статей без предварительной настройки на заданные пары языков оригинала и перевода статьи, а также не требует использования больших коллекций обучающих выборок. Апробация программной реализации алгоритма проводилась в наукометрической системе Московского государственного университета (МГУ) им. М.В. Ломоносова. Результаты тестирования показали ее достаточную эффективность и возможность использования разработанного алгоритма для автоматического построения рекомендаций пользователям для отметки в системе переводных версий статей.
Ключевые слова: библиографические данные, анализ графов, перевод, статья, статистика, наукометрия, цитирование, автоматизированные системы.

Методы автоматического присвоения кодов УДК математическим статьям: оценка классических и нейросетевых подходов

Булат Тимурович Гизатуллин, Ольга Авенировна Невзорова
699-718
Аннотация:

Универсальная десятичная классификация (УДК) – это иерархическая система индексирования, в рамках которой одной публикации могут соответствовать один или несколько кодов. Ручное присвоение кодов УДК трудоемко и нередко оказывается неоднородным. В работе рассмотрена задача автоматического присвоения кодов УДК русскоязычным математическим статьям. Цель исследования – сравнить различные сочетания текстовых представлений и моделей классификации на едином корпусе и определить наиболее эффективные конфигурации. Для этого был сформирован корпус из 4194 статей с ресурса Math-Net.Ru, включающий полные тексты, аннотации, метаданные и коды УДК; были выполнены извлечение текста из PDF-файлов, очистка артефактов верстки и нормализация кодов. В эксперименте сопоставлялись текстовые представления TF-IDF, Word2Vec, SciRus-tiny и SciRus-tiny3.5 в сочетании с моделями логистической регрессии, Complement Naive Bayes (CNB) и CatBoost. Наилучшие результаты в обеих постановках – однозначной (single-label) и многозначной (multi-label) – показала модель TF-IDF + LogReg; близкие результаты продемонстрировала конфигурация TF-IDF + CNB. Полученные результаты могут быть использованы при разработке систем автоматической рубрикации научных публикаций, рекомендательных сервисов для авторов и редакторов, а также средств контроля качества тематической разметки.

Ключевые слова: автоматическая классификация, универсальная десятичная классификация, УДК, обработка научных текстов, машинное обучение, иерархическая классификация, многозначная классификация, математические тексты, цифровые библиотеки, векторизация текста.

Методы и средства визуализации сетей соавторства и сетей цитирования больших научных порталов

З.В. Апанович, П.С. Винокуров
Аннотация: Благодаря быстрому развитию направления Semantic Web и его новой ветви Linked Open Data, в Интернете становятся доступными большие объемы структурированной информации, размещенной на научных порталах, посвященных различным научным направлениям. Наиболее достоверным источником информации, посвященной любому научному направлению, являются собственно научные публикации, составляющие основное наполнение таких порталов. Эти данные нуждаются в средствах анализа, которые могли бы способствовать упрощению их понимания и оптимизации научного менеджмента. В данной работе описываются новые алгоритмы визуализации графов, реализованные в ИСИ СО РАН, и демонстрируется применение этих алгоритмов для визуализации сетей соавторства и сетей цитирования, извлеченных из научных порталов, входящих в облако Linked Open Data.
Ключевые слова: онтология, информационное наполнение, методы визуализации информации, силовой алгоритм, радиальный алгоритм, иерархические жгуты ребер, поуровневое изображение ориентированного графа, сети цитирования, Open Linked Data.

Опыт применения мультимедиа технологий при разработке CD-ROMов

Д.Л. Кречман, Е.С. Никифорова
Аннотация: Доклад посвящен этапу выбора программных средств разработки мультимедиа продукции для CD ROM и киосковых систем, вопросам правильного выбора технических и программных средств и технологических приемов соответствующих концепции содержательного материала, представляемого на CD ROM, в виде киосковой системы или публикации для Интернет.
В докладе описываются технологии проектирования и разработке мультимедиа-проектов на CD ROM или киосковых систем. В докладе рассматриваются такие вопросы как планирование и оценка трудозатрат разработки, подготовку содержательных материалов в мультимедиа-форме (видео, звук, изображения, текст, мультимедиа-эффекты), используя соответствующее аппаратное и программное обеспечение, разработка структурной схемы будущего мультимедиа-приложения, разработку графического оформления приложения, сборку приложения с использованием соответствующего программного обеспечения (ПО).

Определение тематической близости научных журналов и конференций с использованием анализа графа соавторства

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев
514-525
Аннотация: Количество публикуемых в мире журналов очень велико. В этой связи, необходим программный инструментарий, который позволит анализировать тематические связи журналов. Разработанный авторами и представленный в этой работе алгоритм использует для анализа тематической близости журналов граф соавторства. Алгоритм нечувствителен к языку журнала и подбирает похожие журналы на разных языках, что сложно реализуемо для алгоритмов, основанных на анализе полнотекстовой информации. Апробация алгоритма проводилась в наукометрической системе ИАС ИСТИНА. В разработанном для этих целей интерфейсе пользователь может выбрать один близкий ему по тематике журнал, и система автоматически сформирует подборку журналов, которые могут представлять интерес для пользователя как с точки зрения изучения имеющихся в них материалов, так и с точки зрения публикации собственных статей. В перспективе разработанный алгоритм можно адаптировать для поиска похожих по тематике конференций, сборников публикаций и научных проектов. Наличие такого инструмента увеличит публикационную активность молодых сотрудников, повысит цитируемость статей и цитируемость между журналами. Результаты работы алгоритма определения тематической близости между журналами, сборниками, конференциями и научными проектами также могут использоваться для построения правил в моделях разграничения доступа к данным на основе онтологий предметной области.
Ключевые слова: тематическая классификация, библиографические данные, граф соавторства, информационные системы.

Русско-английский набор данных и выравнивание сущностей в графах знаний с несопоставимыми сущностями

Зинаида Владимировна Апанович, Даниил Георгиевич Керного
332-352
Аннотация:

В последние годы кратно возрос интерес к графам знаний (ГЗ) как в научном, так и в промышленном сообществах. Интеграция различных графов знаний является одной из актуальнейших задач и используется, например, для разработки сложных цифровых двойников промышленных систем. Интеграция графов знаний также необходима при объединении графов знаний, извлеченных из текстов на естественном языке при помощи больших языковых моделей. Одной из компонент решения задачи интеграции ГЗ является задача выравнивания сущностей, пытающаяся идентифицировать в разных ГЗ сущности, описывающие один и тот же объект реального мира. К сожалению, в реальных графах знаний многие сущности не имеют эквивалентов в других графах знаний. В частности, каждый фрагмент графа знаний, извлеченный из отдельной публикации, может иметь свою собственную структуру имен сущностей и идентификаторов, что существенно усложняет задачу идентификации сущностей. В работе описаны эксперименты по выравниванию сущностей при наличии несопоставимых сущностей на примере русско-английского набора данных

Ключевые слова: графы знаний, выравнивание сущностей, несопоставимые сущности, двусторонний поиск ближайшего соседа с порогом.

Система для создания, поддержания и публикации электронных архивов

А.Г. Марчук
Аннотация: В работе представлен подход к формированию цифровых архивов документов. Он отличается тем, что кроме основных единиц хранения электронных образов документов, создается база данных неспецифических сущностей, к которой «привязываются» документы. Такой способ позволяет улучшить описание документов и привнести естественные формы поиска и изучения материала. В работах [1, 3] определены принципы электронной фиксации фактов, а также общие положения реализации распределенных архивных фактографических систем. Усилиями последних лет было создано платформенное решение Фактограф, позволяющее создавать, сопровождать и публиковать электронные архивы. Систему также можно использовать и в других прикладных областях: цифровые библиотеки, музеи, простые системы научного делопроизводства.
Ключевые слова: цифровые архивы документов, фактограф, онтология BONE, хранение документов.

Использование методов тематического анализа в наукометрических системах

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев
315-338
Аннотация:

Во многих современных наукометрических системах и системах цитирования представлены различные механизмы тематического поиска и тематической фильтрации информации. В большинстве случаев для тематического анализа статей и журналов используется полнотекстовый подход, который имеет ряд ограничений. Использование алгоритмов, основанных на анализе графов как автономно, так и совместно с полнотекстовыми алгоритмами, позволяет устранить эти ограничения и улучшить полноту и точность тематического поиска. Алгоритм, разработанный авторами и представленный в этой работе, использует для анализа тематической близости журналов граф соавторства. Алгоритм нечувствителен к языку журнала и подбирает похожие журналы на разных языках, что сложно реализуемо для алгоритмов, основанных на анализе полнотекстовой информации. Апробация алгоритма проводилась в наукометрической системе ИАС ИСТИНА. В интерфейсе, разработанном для этих целей, пользователь может выбрать один близкий ему по тематике журнал, и система автоматически сформирует подборку журналов, которые могут представлять интерес для пользователя как с точки зрения изучения имеющихся в них материалов, так и с точки зрения публикации собственных статей. В перспективе разработанный алгоритм можно адаптировать для поиска похожих по тематике конференций, сборников публикаций и научных проектов. Наличие такого инструмента увеличит публикационную активность молодых сотрудников, повысит цитируемость статей и цитируемость между журналами. Результаты работы алгоритма определения тематической близости между журналами, сборниками, конференциями и научными проектами также могут использоваться для построения правил в моделях разграничения доступа к данным на основе онтологий предметной области.

Ключевые слова: тематическая классификация, библиографические данные, граф соавторства, информационные системы.

Архитектура и технологии RDFS-среды разработки цифровых библиотек и Web-порталов

А.А. Бездушный, А.К. Нестеренко, Т.М. Сысоев, А.Н. Бездушный, В.А. Серебряков
Аннотация: В работе рассматривается общая архитектура новой версии системы ИСИР, опирающейся на открытые стандарты W3C: Semantic Web [SW], XML[XML] технологии, и на применение opensource решений. Архитектура позволяет разрабатывать распределённые объектно-ориентированные информационные системы - цифровые библиотеки, информационные и корпоративные порталы, сайты на базе различных типов хранилищ информации, таких как объектные и реляционные базы данных, LDAP-каталоги. Система параметризуется описанием объектной схемы данных конкретной предметной области и легко адаптируется к её изменениям. Для описания схемы используется W3C стандарт на описание схем Интернет ресурсов - RDFS. Архитектура имеет многоуровневую модульную организацию, каждый уровень имеет собственные цели и абстракции. Фундамент решения - ядро ИСИР - унифицирует механизмы работы с хранимыми объектными данными, предоставляет ряд услуг по управлению этими данными, например, разграничение прав доступа, журнализация изменений. На базе ядра строятся более высокоуровневые сервисы такие, как RDF/XML-обмен данными, репликация информации между репозиториями, атрибутно - полнотекстовая индексация данных и др. Имеются средства для простой и эффективной разработки пользовательских Web-интерфейсов. Средства публикации информации и построения отчётов применяют механизмы XSLT и поддерживают широкий спектр целевых форматов. Служба управления потоками работ по редактированию ресурсов репозиториев следует стандартам WfMC - канонической модели и языку спецификации потоков работ XPDL. Служба управления содержанием Web-сайта обеспечивает мульти - иерархическую каталогизацию слабоструктурированной информации, отличающейся нерегулярностью взаимосвязи ее элементов.

Индексы цитирования и оценка публикационной активности авторов

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев
629-645
Аннотация:

В современном научном мире одним из способов оценки успешности научной деятельности ученого является вычисление различных показателей, основанных на количестве его публикаций и их цитируемости. При этом каждый соавтор публикации получает за нее одинаковое количество баллов. Подобный способ оценки приводит к искусственному увеличению количества соавторов, что, в свою очередь, влечет за собой искажение рейтинговых оценок научной деятельности в организации, а также значительно снижает качество тематического поиска по библиографическим данным экспертов, конференций и журналов. Представленный в работе метод позволяет оценить степень влияния указанного фактора на показатели, основанные на учете количества и цитируемости научных публикаций. Апробация метода проводилась на данных наукометрической системы ИАС «ИСТИНА».

Ключевые слова: ранжирование, наукометрия, наукометрические системы, соавторство, системы цитирования, научный рейтинг.

Научные публикации и эмбеддинг-пространство знаний

Андреас Хачатурович Мариносян, Сергей Георгиевич Григорьев
565-594
Аннотация:

Рассмотрены актуальные проблемы наукометрии, возникающие на фоне роста публикационной активности и широкого внедрения технологий генеративного искусственного интеллекта. Проанализирован существующий наукометрический инструментарий анализа научной деятельности, подразделяемый на количественные метрики и методы картографирования науки (анализ сетей цитирований, академическая генеалогия, семантический анализ и др.). Сделана попытка преодоления ограничений традиционного цитатного анализа, таких как «семантическая слепота» и уязвимость к манипуляциям. В качестве возможного решения предложена концептуальная модель, в которой единицей анализа выступает не публикация в целом, а отдельное «ключевое утверждение». Такой подход предполагает фиксацию не только содержания тезиса, но и его типа, области релевантности и характера связей с другими утверждениями (подтверждение, опровержение, уточнение, обобщение и т. д.). В контексте данного подхода предложены принципы расчета модифицированных наукометрических метрик.


Представлены результаты апробации предложенной модели на массиве из 728 статей журнала «Информатика и образование» (2016–2025 гг.). С использованием больших языковых моделей проведен анализ, результаты которого показали, что ретроспективное извлечение утверждений сталкивается с трудностями, связанными со сложившейся культурой научной коммуникации; поэтому отмечено преимущество самостоятельного формулирования ключевых утверждений (как особого типа метаданных) непосредственно авторами публикаций. Намечены возможные пути развития концепции «эмбеддинг-пространства знаний», которая в перспективе могла бы дополнить существующие подходы анализа динамики развития научных идей и теорий.

Ключевые слова: наукометрия, академическая генеалогия, цитатный анализ, семантический анализ, большие языковые модели, карта науки, индекс Хирша, нанопубликации.

Электронные документы локального и сетевого доступа: публикация и виды использования

Е.В. Стрелкова
Аннотация: Электронный документ в национальной системе обязательного экземпляра. Подготовка произведения к электронной публикации и право на использование. Специальные права библиотек в условиях формирования сетевых узлов знаний.
Ключевые слова: электронная публикация, электронные библиотеки, авторское право в сетевой среде.

Сервис-ориентированная информационная система научного журнала «Электронные библиотеки»

Дмитрий Юрьевич Ахметов, Александр Михайлович Елизаров, Евгений Константинович Липачёв
2-39
Аннотация:

Описаны современные модели публикации и распространения научных знаний, а также различные подходы к организация персонального информационного пространства ученого. Охарактеризованы современные информационные системы управления научными изданиями и сервисы, определяющие их функциональность. На основе технологии расширения функционала открытой системы Open Journal Systems созданы программные модули, обеспечивающие автоматизацию ряда редакционных процессов электронного научного журнала. Представлена архитектура универсальной платформы управления электронными научными журналами и подробно описана платформа управления электронным научным журналом «Электронные библиотеки».

Ключевые слова: издательские системы, современные модели публикации и распространения научных знаний, информационное общество, персональное информационное пространство ученого, электронный научный журнал, сервис-ориентированная информационная система, информационные сист.

Абстрактивная суммаризация новостей внешней торговли на основе нового специализированного корпуса данных

Дарья Андреевна Лютова, Валентин Андреевич Малых
1120-1137
Аннотация:

Представлен TradeNewsSum — корпус для абстрактивной генерации аннотаций к новостям внешней торговли, охватывающий русско- и англоязычные публикации из профильных источников. Все рефераты подготовлены вручную по унифицированным правилам. Проведены эксперименты с дообучением трансформерных и seq2seq-моделей и автоматическую оценку по схеме LLM-as-a-judge. Наилучшие результаты показала LLaMA 3.1 в режиме инструкционного промптинга, продемонстрировав высокие значения по метрикам, включая фактологическую полноту.

Ключевые слова: абстрактивное реферирование, многоязычный корпус, новости внешней торговли, санкции, торговые режимы, TradeNewsSum, трансформеры, большие языковые модели, LLM-as-a-judge, NER-оценка сущностей.
1 - 25 из 37 результатов 1 2 > >> 
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2026 Казанский (Приволжский) федеральный университет; Институт развития информационного общества