Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Информационно-поисковая деятельность и информационно-поисковые компетенции студентов (по итогам опроса)

Алла Александровна Витухновская

164-194

Аннотация:

Рассмотрено понятие «информационно-поисковая деятельность» и определено место такой деятельности в учебной работе студентов. Введено и проанализировано понятие «информационно-поисковые компетенции».

Проанализированы результаты проведенного нами опроса студентов младших курсов с целью изучения таких информационно-поисковых компетенций, как знание многообразия информационно-поисковых систем (ИПС) и способность адекватно выбирать и использовать ИПС при выполнени тематического, адресного и фактографического видов поиска информации. Студентам предлагался список из 14 вариантов ответов, включающих информацию как о традиционных ИПС, так и о современных электронных информационных системах.

Проведенное исследование показало, что студенты младших курсов знакомы с ограниченным кругом информационно-поисковых систем и в большинстве случаев при поиске выбирают поисковые системы интернета. Студенты практически игнорируют традиционные библиографические системы, а также источники информации, для пользования которыми требуются специальные знания и владение поисковыми стратегиями.

Очевидно, что необходима целенаправленная деятельность по формированию информационно-поисковых компетенций школьников и студентов на базе специального учебного курса.

Ключевые слова: поиск информации, информационно-поисковая деятельность, информационно-поисковые компетенции, студенты, анкетирование, информационно-поисковые системы, поисковые системы интернета, электронные каталоги, электронные библиотеки.

Стратегия информационного поиска в информационно-поисковых системах и оценка компетенций студентов

Алла Александровна Витухновская

413-434

Аннотация:

Статья посвящена рассмотрению стратегии поиска информации в информационно-поисковой системе (ИПС). Подробно проанализирован подготовительный этап поиска информации, выделены простые и сложные объекты и аспекты поиска, сформулировано правило деления запроса на подзапросы. Обоснована роль логических операций для построения стратегии поиска, предложены правила проектирования и реализации стратегии поиска в ИПС. Проанализированы результаты анкетирования студентов, позволяющие утверждать, что многие из них не готовы грамотно использовать логические операции при поиске информации в информационно-поисковых системах.

Ключевые слова: технология поиска информации, стратегия поиска информации, информационно-поисковые системы, поисковый образ запроса, язык запросов, логические операции, информационно-поисковые компетенции, студенты, анкетирование.

Проект NewsAgent for Libraries: Персонифицированная служба оперативного информационного обеспечения

Р. Йетс

Аннотация: There are three main ways of obtaining information: searching, browsing and alerting. The first two are being widely developed by libraries using the Web, but the last has been somewhat neglected. The NewsAgent for Libraries project was originally funded under the eLib Programme by JISC (Joint Information Systems Committee of the UK higher education funding councils) as a two-year collaborative project started in April 1996.
Several small publishers of library and information science journals worked with network specialists, market evaluators and commercial software developers to design an open, distributed architecture for disseminating information via email and personalised Web pages. Dublin Core metadata was used, enhanced by NewsAgent specific keywords, to map stored user subject profiles against information feeds. Metadata was harvested using software robots to build an Oracle database where both user profiles and document attributes were stored.
Users can join the service via a Web page, to receive information updates by email or as a personalised Web page. Users can select predefined Topics in which they are interested, or create new named ones (stored queries). They can also modify existing Topics. Topics are presented in groups, called Channels.
A major part of the project was an extensive study of the potential end users of the service, before and after a prototype service was created. The project was considered a success, although further development of both software and marketing strategy were needed before a full scale launch could be planned. This is now expected in autumn 1999. In addition to this service, the software is being applied to other services by different organisations, targetted at groups such as small businesses, medical information and environmental information. It is expected that a commercial software package will be available from Fretwell-Downing Informatics as a result of the project.

Семантический анализ документов в системе управления цифровыми научными коллекциями

Шамиль Махмутович Хайдаров

61-85

Аннотация: Предложены методы семантического анализа документов в системе управления цифровыми научными коллекциями, в том числе электронными научными журналами. Рассмотрены методы обработки документов, содержащих математические формулы, а также способы конвертации этих документов из формата OpenXML в формат TeX. Разработан алгоритм поиска по формулам в коллекциях математических документов, хранящихся в формате OpenXML. Алгоритм реализован в виде онлайн-сервиса на платформе science.tatarstan.

Ключевые слова: семантический анализ, издательские системы.

О модели поиска синонимов

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова

1006-1022

Аннотация:

Рассмотрена задача нахождения наиболее релевантных документов в результате расширенного и уточненного запроса. Для ее решения предложены модель поиска и механизм предварительной обработки текста, а также совместное использование поисковой системы и модели, построенной на основе индекса с помощью алгоритмов word2vec для генерации расширенного запроса с синонимами и уточнения результатов поиска на основе подбора похожих документов в цифровой семантической библиотеке. В работе исследуется построение векторного представления документов применительно к массиву данных цифровой семантической библиотеки LibMeta. Решалась задача обогащения пользовательских запросов синонимами. При построении модели поиска совместно с алгоритмами word2vec использован подход «сначала индексация, затем обучение», что позволяет получить более точные результаты поиска. Обучение модели проводилось на базе контента библиотеки для предметной области «Математика». Приведены примеры расширенного запроса с использованием синонимов.

Ключевые слова: модель поиска, алгоритм word2vec, синонимы, информационный запрос, расширение запроса.

Формирование расширенных поисковых запросов на основе тезауруса предметной области в онтологии знаний семантической библиотеки

271-291

Аннотация: Обсуждены возможности расширения поискового запроса при наличии тезауруса предметной области. Роль контекста, задаваемого связями терминов тезауруса, заключается как в уточнении запроса, так и в увеличении масштабов выборки по запросу. Особое значение процесс расширения запроса имеет для научных предметных областей, где поиск опирается на специальную терминологию. В этом случае необходимо использовать тезаурусы предметных областей, чтобы минимизировать появление информационного шума. Предлагаемый подход позволяет учитывать особенности применения аналогичной терминологии в различных предметных областях. Примеры использования тезауруса отдельных разделов уравнений математической физики и смежных областей демонстрируют эффективность выбранного подхода исследований. Благодаря связям с понятиями информационных ресурсов других областей знаний, расширение информационного запроса захватывает поисковые поля отдаленных предметных областей и различных типов данных, текстов, символьных, звуковых и видеоархивов. Исследования показали, что расширение запроса на основе семантики контекста улучшает качество поиска научных публикаций в цифровой информации и повышает эффективность научных междисциплинарных исследований.

Ключевые слова: сравнение научных текстов, семантический поиск, тезаурус для онтологии знаний, информационный запрос с помощью тезауруса, семантические библиотеки.

Цифровая инфраструктура электронного научного журнала: автоматизация редакционно-издательских процессов и система сервисов

Миляуша Салахутдиновна Галявиева, Александр Михайлович Елизаров, Евгений Константинович Липачёв

408-465

Аннотация:

Описаны современные модели и средства публикации и распространения научных знаний. Охарактеризованы современные информационные системы управления научными изданиями и сервисы, определяющие их функциональность.

Введено понятие цифровой инфраструктуры электронного научного журнала как комплекса, который объединяет программную платформу, реализующую основные рабочие процессы управления электронным журналом, и информационные системы, которые обеспечивают функционирование как основных, так и дополнительных сервисов, учитывающих, в частности, специфику предметной области журнала.

Представлен подход к организации цифровой инфраструктуры электронного научного журнала на основе открытой программной системы Open Journal Systems (OJS). Предложены сервисы, расширяющие функциональные возможности этой системы и учитывающие специфику предметной области научных журналов. На основе технологии расширения функционала OJS созданы программные модули, обеспечивающие автоматизацию ряда редакционных процессов электронного научного журнала.

Представлена система сервисов автоматической обработки коллекций научных документов. Эти сервисы обеспечивают проверку соответствия документов коллекций принятым правилам формирования коллекций и преобразования документов в установленные форматы; структурный анализ документов и извлечение метаданных, а также их интеграцию в научное информационное пространство. Система сервисов позволяет автоматически выполнять набор операций, который не реализуем за практически приемлемое время при традиционной «ручной» обработке электронного контента, и предназначена для обработки больших коллекций научных документов.

Охарактеризованы алгоритмы автоматической стилевой валидации текстов на этапе регистрации статьи в информационной системе электронного научного журнала, автоматического подбора рецензентов, рассылки уведомлений и контроля сроков рецензирования.

Представлены методы обработки документов, содержащих математические формулы, в частности, алгоритм поиска по формулам в коллекциях математических документов. Указаны основные идеи, подходы и уже полученные результаты по разработке семантических технологий управления математическими знаниями, в том числе, подход к построению рекомендательных систем на основе онтологий математического знания и метод автоматизации процесса первичной обработки научной статьи, использующей TеX-нотацию.

Охарактеризована проблема построения системы анализа и оценки информационного и социального воздействия публикуемого научного контента на его пользователей. Проведено сопоставление традиционных (библиометрических и наукометрических) и альтернативных показателей такой оценки. Описан мировой опыт использования информетрических сервисов на сайтах научных журналов. Обсуждены варианты реализации этих подходов в рамках цифровой инфраструктуры электронного научного журнала.

Ключевые слова: издательские системы, современные модели публикации и распространения научных знаний, информационное общество, электронный научный журнал, информационные системы управления научными изданиями и публикациями, интеграция электронных ресурсов.

Использование графа соавторства для тематического поиска конференций по наукометрическим данным

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев

600-615

Аннотация:

Применение современных методов тематического анализа для аналитической обработки больших объемов информации используется в настоящие время практически во всех сферах человеческой деятельности, в том числе, в наукометрии. Многие наукометрические системы и системы цитирования, включая всемирно известные WoS, Scopus, Google Shcolar, разрабатывают тематические рубрикаторы для поиска и обработки информации. Важными практическими задачами, которые могут решаться с применением методов тематической классификации, являются: оценка динамики развития тематических направлений в организации, в отдельной стране и мировой науке в целом; поиск статей по заданной тематике; поиск и оценка авторитетности экспертов; поиск журналов для публикации и другие актуальные задачи. Авторами созданы программные реализации алгоритмов для решения некоторых из перечисленных задач и ведутся научные исследования с целью создания новых эффективных математических моделей и алгоритмов в этой области.

Ключевые слова: тематический поиск, библиографические данные, поиск конференций, граф соавторства, информационные системы, наукометрия.

Методология и технология создания многоцелевой информационной среды T-System на базе электронной библиотеки с гибким полнотекстовым поиском

С.Х. Ляпин, А.В. Куковякин

Аннотация: Описана методология и технология построения многоцелевой информационной среды T-System путем расширения информационной системы T-Libra и предназначенной для интеграции ресурсов и сервисов, характерных для электронной библиотеки с гибким полнотекстовым поиском, виртуального музея, электронного архива, исследовательской лаборатории, образовательного сервера. Методологической основой интеграции является гибридная двухуровневая онтология, основанная на взаимодействии функциональных систем (верхний уровень), библиотеки концептов и библиотеки тезаурусов (нижний уровень). Технологической основой – унифицированная поисковая система, включающая в себя механизм нелинейных каскадных запросов, формирующих соответствующие функциональные системы и соединяющих результаты полнотекстового поиска, релевантные тезаурусы и концепты, текстовые метаданные, а также нетекстовые объекты различной модальности (графика, звук, видео и т.д.). Вся среда проектируется в трехзвенной архитектуре (Веб-браузер / Веб-сервер + Сервер приложений / Cервер баз данных), с использованием специальной системы индексации для повышения эффективности поиска, а также внешней логики, встроенной в сервер приложений и обеспечивающей совместимость с различными СУБД.

Метод поиска экспертов по данным наукометрических систем

Александр Сергеевич Козицын, Сергей Александрович Афонин

870-888

Аннотация:

Применение современных методов тематического анализа для аналитической обработки больших объемов информации используется в настоящие время практически во всех сферах человеческой деятельности, в том числе, в наукометрии. Многие наукометрические системы и системы цитирования, включая всемирно известные WoS, Scopus, Google Shcolar, разрабатывают тематические рубрикаторы для поиска и обработки информации. Важными практическими задачами, которые могут решаться с применением методов тематической классификации, являются: оценка динамики развития тематических направлений в организации, отдельной стране и мировой науке в целом; поиск статей по заданной тематике; поиск и оценка авторитетности экспертов; поиск журналов для публикации и другие актуальные задачи. Авторами созданы программные реализации алгоритмов для решения некоторых из перечисленных задач и ведутся научные исследования с целью создания новых эффективных математических моделей и алгоритмов в этой области.

Ключевые слова: тематический поиск, библиографические данные, поиск экспертов, информационные системы, наукометрия.

Электронные текстовые ресурсы и долговременное хранение данных в Карельском научном центре РАН

Андрей Анатольевич Крижановский, Анатолий Дмитриевич Сорокин, Виктор Алексеевич Лебедев, Эльвира Викторовна Ямса, Валентина Геннадьевна Старкова, Юлия Андреевна Новикова, Александр Владимирович Чирков, Наталья Борисовна Крижановская, Юлия Васильевна Чиркова

305-367

Аннотация:

Описаны электронные ресурсы Карельского научного центра РАН, связанные с работой электронных библиотек, репозиториев и поисковых систем. Эти ресурсы предназначены для сбора, организации и распространения научной и технической информации (в виде научных публикаций, архивных документов) с целью ее использования в теоретических и прикладных научных дисциплинах. Охарактеризованы этапы разработки названных ресурсов на фоне истории развития отдельных, связанных с ними подразделений (Научная библиотека, Научный архив). Предложены направления развития электронных ресурсов Центра.

Статья распространяется на правах свободной лицензии Creative Commons Attribution-ShareAlike 4.0.

Ключевые слова: Карельский научный центр РАН, электронное архивирование, электронная библиотека.

Интеллектуальный поиск сложных объектов в массивах больших данных

Александр Михайлович Гусенков

40-76

Аннотация: Предложен подход к интеллектуальному поиску сложных объектов в различных типах структурно размеченных текстов, который может быть применен для обработки Больших данных (Big Data). Исследуются два вида представления информационных объектов: реляционные базы данных (РБД), которые структурно размечены своими схемами, и полнотекстовые естественнонаучные документы, содержащие математические выражения (формулы). Для таких полнотекстовых документов предлагается дополнительная автоматизированная разметка для организации поиска формул. В обоих случаях источником информации для построения онтологии и, в дальнейшем, организации поиска являются тексты на естественном языке, которые относятся к слабоструктурированным данным. Для РБД это комментарии к наименованиям таблиц и их атрибутов, а для естественнонаучных документов (статей, монографий и т. д.) – текстовое содержимое размеченных документов.

Ключевые слова: большие данные, семантический поиск, слабоструктурированные данные, онтологии, реляционные базы данных, естественнонаучные тексты, разметка математических выражений.

Извлечение знаний из Wikidata для формирования метаданных документов электронных математических коллекций

Полина Олеговна Гафурова, Александр Михайлович Елизаров, Евгений Константинович Липачёв

1023-1059

Аннотация:

Представлены методы создания цифровых математических коллекций, включающих неструктурированные наборы документов. Эти наборы содержат материалы сборников научных конференций, а также статьи из архивов математических журналов «доцифрового» периода.

Формирование обязательного набора метаданных названных документов произведено с помощью программных инструментов фабрики метаданных цифровой математической библиотеки Lobachevskii DML. Для уточнения и пополнения наборов метаданных документов цифровых коллекций использованы методы извлечения знаний из Wikidata.

Разработана система SPARQL-запросов для поиска в Wikidata информации о документах электронных коллекций и их авторах. Обозначен набор сущностей Wikidata, определяющих признаки поиска, а также последующую фильтрацию полученных результатов.

Предложены методы уточнения и дополнения библиографических ссылок, приведенных в статьях. При формировании метаданных документов ретро-коллекций произведен поиск в Wikidata сведений о годах жизни авторов статей, а также URL веб-страниц с информацией о статьях и их авторах. Приведены результаты формирования нескольких новых электронных коллекций цифровой библиотеки Lobachevskii-DML.

Ключевые слова: Wikidata, метаданные, фабрика метаданных, цифровая математическая коллекция, цифровая математическая ретро коллекция, цифровые математические библиотеки, Lobachevskii-DML.

Развитие информационной системы регистрации результатов интеллектуальной деятельности сотрудников научного учреждения

Светлана Александровна Власова, Николай Евгеньевич Каленов

770-793

Аннотация:

Описана разработанная авторами веб-система, реализующая сервисы, связанные с формированием и предоставлением многоаспектной информации о результатах научной деятельности (публикациях, авторских свидетельствах и докладах на научных мероприятиях) сотрудников организации или группы организаций. Система ориентирована как на конечного пользователя, заинтересованного в получении конкретных данных, так и на административный персонал, формирующий отчетные материалы для вышестоящей организации. Информационная база системы содержит связанные данные о следующих классах объектов: персоны (авторы), организации и их подразделения; публикации на аналитическом, монографическом и сводном уровнях; авторские свидетельства; научные мероприятия (конференции, симпозиумы, семинары); доклады. В состав системы входят два модуля – административный, предназначенный для ввода и редактирования данных, и пользовательский, который представляет собой специальный поисковый аппарат, осуществляющий поиск информации, ее визуализацию, навигацию по связанным ресурсам и экспорт данных. Отличительной особенностью системы является введенное понятие «эквивалентных» объектов. Эквивалентными считаются объекты, представленные в системе различными метаданными, но относящимися к одной физической сущности. Такими объектами являются «персоны», соответствующие одному автору с различными написаниями фамилии в библиографических описаниях публикаций; организации, имеющие различные варианты названий; статьи, опубликованные без изменений на различных языках. В соответствии с современными требованиями к отчетности по публикациям в системе отражаются источники финансирования научных исследований, а также аффилиации каждого автора, указанные в статьях.

Ключевые слова: научные труды, научная деятельность, автоматизированная система, база данных, отчеты, сетевые технологии.

Результаты исследований по обнаружению заимствований с использованием анализа цитирований

Вадим Николаевич Гуреев, Николай Алексеевич Мазов

322-331

Аннотация:

Переводной плагиат как одна из наиболее распространенных в научном информационном пространстве разновидностей плагиата представляет собой трудноразрешимую проблему, поскольку практически не поддается автоматизированному выявлению. Между тем за последние пять лет в этом направлении наблюдается прогресс. Авторами настоящей работы, а также группой зарубежных исследователей из нескольких университетов независимо друг от друга был предложен подход к выявлению плагиата на основе анализа цитирований, при котором для анализируемой подозрительной публикации находится возможный первоисточник с идентичным или схожим списком цитируемой литературы, что в итоге позволяет сличать текст на разных языках. Разработанная методика обнаружения неправомерных заимствований в научных текстах успешно прошла тестовые исследования. В статье приведены результаты четырехлетних исследований.

Ключевые слова: обнаружение заимствований, переводной плагиат, выявление плагиата, анализ цитирования, база данных цитирований.

Извлечение данных из сканированных документов со сходной структурой

Рустем Дамирович Саитгареев, Булат Рифатович Гиниятуллин, Владислав Юрьевич Топоров, Артур Александрович Атнагулов, Фарид Радикович Аглямов

667-688

Аннотация:

На текущий момент времени значительная часть передаваемых и хранимых данных не структурирована. Количество неструктурированных данных растет большими темпами каждый год, несмотря на то, что по таким данным трудно производить поиск, к ним нельзя совершать запросы и в целом их обработка не автоматизирована. В то же время наблюдается развитие систем электронного документооборота.

Настоящая работа предлагает инструмент для извлечения данных из фотографий бумажных документов, принимая во внимание их структуру и разметку. Представлены результаты разных испытанных подходов, включая нейронные сети и алгоритмический метод, а также проведен анализ полученных результатов.

Ключевые слова: нейронные сети, машинное обучение, извлечение структуры, извлечение структуры документов, OCR , неструктурированные данные , распознавание текста.

Разработка cистемы поиска и индексирования контента аудиозаписей

Роман Алексеевич Климов, Азат Шавкатович Якупов

483-497

Аннотация:

Статья посвящена разработке системы поиска и индексации аудиофайлов с использованием автоматического распознавания речи (ASR) и Elasticsearch. Проанализированы актуальные системы транскрибирования аудиофайлов на русском языке и выбрана система whisper как лучшая. Создан алгоритм оптимизации скорости транскрибирования с помощью параллелизации процессов обработки файла, продемонстрирована его эффективность. Построена система на микросервисной архитектуре, способная индексировать контент аудиофайлов и их мета-данные для поиска. Результаты исследования показали, что предложенный подход может быть применен для создания эффективных и гибких систем поиска и аналитики аудиоинформации.

Ключевые слова: транскрибирование, индексирование, параллелизация, микросервисы, масштабируемость.

Использование методов тематического анализа в наукометрических системах

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев

315-338

Аннотация:

Во многих современных наукометрических системах и системах цитирования представлены различные механизмы тематического поиска и тематической фильтрации информации. В большинстве случаев для тематического анализа статей и журналов используется полнотекстовый подход, который имеет ряд ограничений. Использование алгоритмов, основанных на анализе графов как автономно, так и совместно с полнотекстовыми алгоритмами, позволяет устранить эти ограничения и улучшить полноту и точность тематического поиска. Алгоритм, разработанный авторами и представленный в этой работе, использует для анализа тематической близости журналов граф соавторства. Алгоритм нечувствителен к языку журнала и подбирает похожие журналы на разных языках, что сложно реализуемо для алгоритмов, основанных на анализе полнотекстовой информации. Апробация алгоритма проводилась в наукометрической системе ИАС ИСТИНА. В интерфейсе, разработанном для этих целей, пользователь может выбрать один близкий ему по тематике журнал, и система автоматически сформирует подборку журналов, которые могут представлять интерес для пользователя как с точки зрения изучения имеющихся в них материалов, так и с точки зрения публикации собственных статей. В перспективе разработанный алгоритм можно адаптировать для поиска похожих по тематике конференций, сборников публикаций и научных проектов. Наличие такого инструмента увеличит публикационную активность молодых сотрудников, повысит цитируемость статей и цитируемость между журналами. Результаты работы алгоритма определения тематической близости между журналами, сборниками, конференциями и научными проектами также могут использоваться для построения правил в моделях разграничения доступа к данным на основе онтологий предметной области.

Ключевые слова: тематическая классификация, библиографические данные, граф соавторства, информационные системы.

Исследование контекстов экосистемы «Цифрового туризма»

Ольга Витальевна Кононова, Дмитрий Евгеньевич Прокудин, Елена Николаевна Тупикина

339-370

Аннотация:

Современные информационно-коммуникационные технологии, элементы цифровизации постоянно и стремительно развиваются, что, в свою очередь, оказывает непосредственное влияние на все сферы человеческой деятельности. В свете последних событий, связанных с коллапсом туристического бизнеса из-за COVID-19, большой научный интерес проявляется к сфере услуг, а именно, к сфере «цифрового туризма». Цифровой туризм опирается на широкое внедрение новых технологий, таких как социальные сети и мобильные технологии, умные устройства и датчики для сбора и использования огромного количества данных для создания новых ценностных предложений. В связи с этим авторами поставлена цель – представить обзор литературы по «цифровому туризму» с позиций научного и медиа дискурса. Авторами представлен комплексный науковедческий подход, включающий последовательное выполнение всех этапов обзора от определения терминологического ядра междисциплинарного направления, формирования поисковых запросов, каскадного поиска, подбора и контент-анализа материалов до выявления и экспликация контекстов. Источниками информации для подготовки обзора выступили публикации из академических баз данных: Web of Science, Science-Direct, Scopus, GoogleScholar, eLibrary, Киберленинка, а также материалы и публикации в русскоязычных СМИ – Интегрум.

Полученные результаты будут полезны ученым при определении перспективных направлений исследований в области «цифрового туризма», а также позволят углубить знания о механизмах поиска, сбора и анализа данных и интегрированных и аналитических средах.

Ключевые слова: информационно-коммуникационные технологии, цифровые трансформации, цифровой туризм, электронный туризм, eTourism, smart tourism.

Определение тематической близости научных журналов и конференций с использованием анализа графа соавторства

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев

514-525

Аннотация: Количество публикуемых в мире журналов очень велико. В этой связи, необходим программный инструментарий, который позволит анализировать тематические связи журналов. Разработанный авторами и представленный в этой работе алгоритм использует для анализа тематической близости журналов граф соавторства. Алгоритм нечувствителен к языку журнала и подбирает похожие журналы на разных языках, что сложно реализуемо для алгоритмов, основанных на анализе полнотекстовой информации. Апробация алгоритма проводилась в наукометрической системе ИАС ИСТИНА. В разработанном для этих целей интерфейсе пользователь может выбрать один близкий ему по тематике журнал, и система автоматически сформирует подборку журналов, которые могут представлять интерес для пользователя как с точки зрения изучения имеющихся в них материалов, так и с точки зрения публикации собственных статей. В перспективе разработанный алгоритм можно адаптировать для поиска похожих по тематике конференций, сборников публикаций и научных проектов. Наличие такого инструмента увеличит публикационную активность молодых сотрудников, повысит цитируемость статей и цитируемость между журналами. Результаты работы алгоритма определения тематической близости между журналами, сборниками, конференциями и научными проектами также могут использоваться для построения правил в моделях разграничения доступа к данным на основе онтологий предметной области.

Роль искусственного интеллекта в создании, курировании и интерпретации коллекций электронных библиотек

Евгений Вячеславович Самоходкин, Алиса Андреевна Эльзон, Елена Геннадьевна Самоходкина, Дмитрий Владимирович Лошадкин

304-329

Аннотация:

Исследование посвящено осмыслению роли искусственного интеллекта (ИИ) в трансформации экосистемы цифровой научной коммуникации на материале электронных библиотек и крупных агрегаторов знаний. На основе интегративного обзора новейших зарубежных и отечественных работ проанализировано, как ИИ постепенно превращается в системообразующий инфраструктурный механизм жизненного цикла электронных коллекций, структурируя процессы отбора, оцифровки, метадатирования, хранения и сервисного раскрытия ресурсов. Параллельно обоснована интерпретация интеллектуальных рекомендательных систем как эпистемического посредника, влияющего на конфигурацию научного чтения, распределение исследовательского внимания и видимость периферийных знаний в пространственно-языковой архитектуре науки. Показано, что алгоритмическая персонализация не сводится к повышению удобства поиска, а участвует в конструировании норм релевантности, языковых и региональных иерархий, новых принципов осмысления коллекций. Выявленные эффекты позволяют концептуализировать феномен алгоритмического посредничества в связке микроуровня исследовательской идентичности и макроуровня глобального распределения научного знания, а также обозначить необходимость рефлексивного управления рекомендательными контурами в целях сохранения эпистемического многообразия и повышения прозрачности цифровой инфраструктуры библиотек.

Ключевые слова: искусственный интеллект, электронные библиотеки, рекомендательные системы, алгоритмическое посредничество, цифровая научная коммуникация, жизненный цикл электронных коллекций, метаданные, эпистемический медиатор, пространственно-языковая конфигурация знания, периферийные знания, исследовательская идентичность, алгоритмическая персонализация, библиометрический анализ, когнитивный менеджмент, культурное наследие.

Некоторые программные инструменты для автоматизированного пополнения терминологического словаря предметной области

Роман Анатольевич Румянцев, Ольга Авенировна Невзорова

91-122

Аннотация: Описано приложение OntoDictionary, которое предназначено для работы с научными математическими статьями и онтологиями, созданными в редакторе Protege. Приложение способно создавать словарь онтологии, разбивать его элементы на концепты и обрабатывать их в булевом поиске. Имеется функционал для выделения определённых именных групп из математических статей. Новизна заключается в создании и методе обработки именных групп, содержащих формулы. Формулы обрабатываются независимо от их типа. Построен отбор кандидатов в термины. По всему функционалу произведён ряд экспериментов с онтологией математического знания OntoMathPRO, которая также была разработана в Казанском федеральном университете.

Ключевые слова: математическое знание, онтология, концепт, поисковый индекс, именная группа, кандидаты в термины.

Использование семантического поиска для выбора и ранжирования научных геологических публикаций

Михаил Иванович Патук, Вера Викторовна Наумова

758-773

Аннотация:

Агрегирование научной информации играет важную роль для комплексного анализа геологических объектов. В настоящей работе мы рассматриваем потенциал и возможности семантического поиска для выбора тематически близких геологических публикаций. Проанализированы различные языковые модели в контексте нахождения сходства и различия между текстами при описании месторождений полезных ископаемых. Показано значительное улучшение результатов поиска после дополнительной тренировки языковых моделей. Представлены два веб-сервиса, основанных на методе расчета семантической близости текстов с количественной оценкой меры близости.

Ключевые слова: искусственный интеллект, машинное обучение, обработка естественного языка, семантический поиск, геология.

Как эмбеддинги имен сущностей влияют на качество выравнивания сущностей

Даниил Иванович Гусев, Зинаида Владимировна Апанович

52-79

Аннотация:

Алгоритмы установления соответствия между сущностями осуществляют поиск эквивалентных сущностей в разноязычных графах знаний. Данная проблема возникает, как правило, при интеграции разноязычных графов знаний. В настоящее время решение этой проблемы становится весьма актуальным для практического решения проблем импортозамещения, например, чтобы найти информацию о лекарствах, выпускаемых в разных странах под разными названиями, или же решить проблему поиска эквивалентных запчастей.

В настоящее время известно несколько библиотек с открытым кодом, которые объединяют известные алгоритмы выравнивания сущностей, а также тестовые наборы данных для различных языков. В данной работе описан русско-английский набор данных для экспериментов с нескольким популярными алгоритмами выравнивания сущностей. Особое внимание уделено методам генерации векторных представлений для имен сущностей. В частности, рассмотрены комбинации различных методов генерации векторных представлений (эмбеддингов) имен сущностей с известными алгоритмами выравнивания сущностей. Таблицы с результатами экспериментов дополнены визуализациями.

Ключевые слова: разноязычные графы знаний, идентификация сущностей, cross-lingual entity alignment, knowledge graphs, relational embeddings, name embeddings.

1 - 25 из 44 результатов 1 2 > >>