• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Разработка модуля проверки данных для удовлетворения метрики устаревания

Айгуль Ильдаровна Сибгатуллина, Азат Шавкатович Якупов
159-178
Аннотация:

Из года в год возрастает объем мирового рынка больших данных. Их анализ является неотъемлемой частью для принятия немедленных и надежных решений. Технологии больших данных ведут к значительному снижению стоимости за счет использования облачных сервисов, распределенных файловых систем, когда возникает потребность в хранении больших объемов информации. Их аналитика неразрывно связана с понятием качества данных, что особенно важно, если они имеют определенный срок хранения – метрику устаревания – и мигрируют из одного источника в другой, увеличивая риск потери данных. Предупреждение негативных последствий достигается за счет процесса сверки данных – комплексной проверки больших объемов информации с целью подтверждения их согласованности.


В статье рассмотрены вероятностные структуры данных, которые могут быть использованы для решения задачи, а также предложена реализация – модуль проверки целостности данных с использованием фильтра Блума с подсчетом. Данный модуль интегрирован в Apache Airflow для автоматизации процесса.

Ключевые слова: большие данные, метрика устаревания, партиция, parquet файл, фильтр Блума.

Интеллектуальный поиск сложных объектов в массивах больших данных

Александр Михайлович Гусенков
40-76
Аннотация: Предложен подход к интеллектуальному поиску сложных объектов в различных типах структурно размеченных текстов, который может быть применен для обработки Больших данных (Big Data). Исследуются два вида представления информационных объектов: реляционные базы данных (РБД), которые структурно размечены своими схемами, и полнотекстовые естественнонаучные документы, содержащие математические выражения (формулы). Для таких полнотекстовых документов предлагается дополнительная автоматизированная разметка для организации поиска формул. В обоих случаях источником информации для построения онтологии и, в дальнейшем, организации поиска являются тексты на естественном языке, которые относятся к слабоструктурированным данным. Для РБД это комментарии к наименованиям таблиц и их атрибутов, а для естественнонаучных документов (статей, монографий и т. д.) – текстовое содержимое размеченных документов.
Ключевые слова: большие данные, семантический поиск, слабоструктурированные данные, онтологии, реляционные базы данных, естественнонаучные тексты, разметка математических выражений.

Построение онтологии предметной области на основе логической модели данных

Александр Михайлович Гусенков, Наиль Раисович Бухараев, Евгений Васильевич Биряльцев
390-417
Аннотация: Представлена технология автоматизированного построения онтологии предметной области на основе информации, извлекаемой из комментариев реляционных баз данных ПАО «Татнефть». Технология основана на построении конвертора (компилятора), транслирующего логическую модель данных Epicentre Petrotechnical Open Software Corporation (POSC), представленную в виде ER-диаграмм и набора описаний на объектно-ориентированном языке EXPRESS, в язык описания онтологий OWL, рекомендованный консорциумом W3C. Описаны основные синтаксические и семантические аспекты преобразования.
Ключевые слова: онтология предметной области, реляционные базы данных, POSC, OWL.

Тенденции развития технологий обработки больших данных и инструментария хранения разноформатных данных и аналитики

Марат Рамилевич Биктимиров, Александр Михайлович Елизаров, Андрей Юрьевич Щербаков
390-407
Аннотация:

Статья посвящена анализу тенденций развития технологий обработки Больших Данных и инструментария хранения разноформатных данных и аналитики, который проведен в рамках работ по программе фундаментальных исследований Отделения математических наук РАН «Алгебраические и комбинаторные методы математической кибернетики и информационные системы нового поколения», а также гранта РФФИ № 14-07-00783 «Способы хранения и обработки большого объема научно-справочных данных на современных аппаратных платформах».

Ключевые слова: большие данные, анализ, информация, программное обеспечение, распределенные вычисления, системы хранения, облачные технологии.

Программа «История гениального открытия»

Роман Валерьевич Мосолов
1239-1278
Аннотация:

Настоящая статья описывает концепцию программного обеспечения (ПО) «История гениального открытия», имеющего ряд сходств с программой GitHub, получившей широкую известность в профессиональном сообществе программистов. Программа призвана решать две основные научные проблемы: сохранять научно-культурное наследие российских учёных и аккумулировать первичные данные, позволяющие количественно измерить тенденции становления научных теорий, тем самым дополнив концепцию «научных революций» Т. Куна. Программа позволит сохранять исторически значимые научные достижения, минимизируя вероятность их бесследных потерь вследствие преждевременно ухода учёных из жизни. Идея разработки программы базируется на пересечении пяти научных направлений – программной инженерии, социологии, философии, права и истории – и появилась в стенах Казанского (Приволжского) федерального университета при изучении Big Data Science.

Ключевые слова: История гениального открытия, научное наследие, культурное наследие, закономерности гениальности, ПО для учёных, программа для учёных, GitHub для учёных.

Семантический анализ документов в системе управления цифровыми научными коллекциями

Шамиль Махмутович Хайдаров
61-85
Аннотация: Предложены методы семантического анализа документов в системе управления цифровыми научными коллекциями, в том числе электронными научными журналами. Рассмотрены методы обработки документов, содержащих математические формулы, а также способы конвертации этих документов из формата OpenXML в формат TeX. Разработан алгоритм поиска по формулам в коллекциях математических документов, хранящихся в формате OpenXML. Алгоритм реализован в виде онлайн-сервиса на платформе science.tatarstan.
Ключевые слова: семантический анализ, издательские системы.

К проблеме создания Виртуальных Центров данных дистанционного зондирования Земли

Е.Б. Кудашев, М.А. Попов
Аннотация: Предствлен обзор европейских программ и проводится анализ современного состояния исследований и международного сотрудничества в области исследования Земли из космоса. Рассматриваются программы GEO/GEOSS, CEOS, GMES and и новейший проект APARSEN, выполняющийся 31 партнером по заданию европейской Комиссии. Эта статья рассматривает проблемы интеграции научных данных и развития научного сообщества с целью обеспечить максимальные преимущеста, возникающие в цифровую эру и эпоху Big Data для непрерывного доступа к спутниковым данным и их длительного хранения. Обсуждаются перспективы создания Виртуальных Центров данных дистанционного зондирования Земли из космоса.
Ключевые слова: Дистанционное зондирование Земли из космоса, Инфраструктура научных информационных ресурсов, Геопортал, Комитет по спутникам для исследования Земли из космоса, Программа глобального мониторинга для экологии и безопасности, проект APARSEN.

Определение тематической близости научных журналов и конференций с использованием анализа графа соавторства

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев
514-525
Аннотация: Количество публикуемых в мире журналов очень велико. В этой связи, необходим программный инструментарий, который позволит анализировать тематические связи журналов. Разработанный авторами и представленный в этой работе алгоритм использует для анализа тематической близости журналов граф соавторства. Алгоритм нечувствителен к языку журнала и подбирает похожие журналы на разных языках, что сложно реализуемо для алгоритмов, основанных на анализе полнотекстовой информации. Апробация алгоритма проводилась в наукометрической системе ИАС ИСТИНА. В разработанном для этих целей интерфейсе пользователь может выбрать один близкий ему по тематике журнал, и система автоматически сформирует подборку журналов, которые могут представлять интерес для пользователя как с точки зрения изучения имеющихся в них материалов, так и с точки зрения публикации собственных статей. В перспективе разработанный алгоритм можно адаптировать для поиска похожих по тематике конференций, сборников публикаций и научных проектов. Наличие такого инструмента увеличит публикационную активность молодых сотрудников, повысит цитируемость статей и цитируемость между журналами. Результаты работы алгоритма определения тематической близости между журналами, сборниками, конференциями и научными проектами также могут использоваться для построения правил в моделях разграничения доступа к данным на основе онтологий предметной области.
Ключевые слова: тематическая классификация, библиографические данные, граф соавторства, информационные системы.
1 - 8 из 8 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2025 Казанский (Приволжский) федеральный университет; Институт развития информационного общества