Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Разработка модуля проверки данных для удовлетворения метрики устаревания

Айгуль Ильдаровна Сибгатуллина, Азат Шавкатович Якупов

159-178

Аннотация:

Из года в год возрастает объем мирового рынка больших данных. Их анализ является неотъемлемой частью для принятия немедленных и надежных решений. Технологии больших данных ведут к значительному снижению стоимости за счет использования облачных сервисов, распределенных файловых систем, когда возникает потребность в хранении больших объемов информации. Их аналитика неразрывно связана с понятием качества данных, что особенно важно, если они имеют определенный срок хранения – метрику устаревания – и мигрируют из одного источника в другой, увеличивая риск потери данных. Предупреждение негативных последствий достигается за счет процесса сверки данных – комплексной проверки больших объемов информации с целью подтверждения их согласованности.

В статье рассмотрены вероятностные структуры данных, которые могут быть использованы для решения задачи, а также предложена реализация – модуль проверки целостности данных с использованием фильтра Блума с подсчетом. Данный модуль интегрирован в Apache Airflow для автоматизации процесса.

Ключевые слова: большие данные, метрика устаревания, партиция, parquet файл, фильтр Блума.

Онтологический подход к проектированию микросервисной архитектуры

Евгений Александрович Малых, Андрей Алексеевич Блощук, Ольга Муратовна Атаева

822-841

Аннотация:

Несмотря на широкое использование микросервисной архитектуры в разработке программных систем, в настоящее время не существует формализованного подхода, обеспечивающего согласованное и гарантированное взаимодействие микросервисов на уровне передаваемых данных, что приводит к возникновению интеграционных ошибок и усложняет сопровождение распределенных систем. В работе предложен подход к организации взаимодействия микросервисов на основе онтологического моделирования, обеспечивающего формализацию структур данных и автоматизированную валидацию сообщений. Предложен метод преобразования в онтологических моделей формальных описаний схем данных основанный на спецификации схем GraphQL. Он позволяет автоматизировать процесс валидации данных и снизить количество интеграционных ошибок. Разработана также онтологическая модель, обеспечивающая анализ зависимостей между микросервисами и механизм валидации контрактов сообщений.

Практическая значимость работы заключается в достижении согласованного описания микросервисов, операций и форматов сообщений в результате использования онтологического подхода. Представление онтологии в виде графа позволяет анализировать зависимости между микросервисами и упрощает сопровождение крупных распределенных систем.

Ключевые слова: онтология, GraphQL Schema, интеграция данных, микросервисная архитектура, потоки сообщений, валидация данных, межсервисное взаимодействие, онтологическая модель, согласованность данных, управление схемами, шина данных.

Цифровая инфраструктура электронного научного журнала: автоматизация редакционно-издательских процессов и система сервисов

Миляуша Салахутдиновна Галявиева, Александр Михайлович Елизаров, Евгений Константинович Липачёв

408-465

Аннотация:

Описаны современные модели и средства публикации и распространения научных знаний. Охарактеризованы современные информационные системы управления научными изданиями и сервисы, определяющие их функциональность.

Введено понятие цифровой инфраструктуры электронного научного журнала как комплекса, который объединяет программную платформу, реализующую основные рабочие процессы управления электронным журналом, и информационные системы, которые обеспечивают функционирование как основных, так и дополнительных сервисов, учитывающих, в частности, специфику предметной области журнала.

Представлен подход к организации цифровой инфраструктуры электронного научного журнала на основе открытой программной системы Open Journal Systems (OJS). Предложены сервисы, расширяющие функциональные возможности этой системы и учитывающие специфику предметной области научных журналов. На основе технологии расширения функционала OJS созданы программные модули, обеспечивающие автоматизацию ряда редакционных процессов электронного научного журнала.

Представлена система сервисов автоматической обработки коллекций научных документов. Эти сервисы обеспечивают проверку соответствия документов коллекций принятым правилам формирования коллекций и преобразования документов в установленные форматы; структурный анализ документов и извлечение метаданных, а также их интеграцию в научное информационное пространство. Система сервисов позволяет автоматически выполнять набор операций, который не реализуем за практически приемлемое время при традиционной «ручной» обработке электронного контента, и предназначена для обработки больших коллекций научных документов.

Охарактеризованы алгоритмы автоматической стилевой валидации текстов на этапе регистрации статьи в информационной системе электронного научного журнала, автоматического подбора рецензентов, рассылки уведомлений и контроля сроков рецензирования.

Представлены методы обработки документов, содержащих математические формулы, в частности, алгоритм поиска по формулам в коллекциях математических документов. Указаны основные идеи, подходы и уже полученные результаты по разработке семантических технологий управления математическими знаниями, в том числе, подход к построению рекомендательных систем на основе онтологий математического знания и метод автоматизации процесса первичной обработки научной статьи, использующей TеX-нотацию.

Охарактеризована проблема построения системы анализа и оценки информационного и социального воздействия публикуемого научного контента на его пользователей. Проведено сопоставление традиционных (библиометрических и наукометрических) и альтернативных показателей такой оценки. Описан мировой опыт использования информетрических сервисов на сайтах научных журналов. Обсуждены варианты реализации этих подходов в рамках цифровой инфраструктуры электронного научного журнала.

Ключевые слова: издательские системы, современные модели публикации и распространения научных знаний, информационное общество, электронный научный журнал, информационные системы управления научными изданиями и публикациями, интеграция электронных ресурсов.

Модель и архитектура многоуровневого анализа сходства Android-приложений по статическим признакам

Валерий Владимирович Петров

877-897

Аннотация:

Рассмотрена задача многоуровневого анализа сходства приложений для платформы Android по статическим признакам в цифровых коллекциях мобильных приложений. В таких коллекциях встречаются дубликаты, ответвленные версии, перепакованные приложения и иные модифицированные варианты; вредоносная нагрузка рассматривается как возможный частный случай модификации, а не как синоним перепаковки.

Формализована функция сходства приложений по статическим признакам, построена статическая модель приложения и предложена архитектура анализа, разделяющая предварительный отбор кандидатов, углубленное сопоставление, интерпретацию результата и слой формирования заключения. Показано, что значимая информация о близости приложений содержится не только в байткоде classes.dex, но и в манифесте AndroidManifest.xml, ресурсах, APK-внутренних метаданных и библиотечных зависимостях. Численная оценка сходства вычисляется только при успешном построении статических моделей сравниваемых приложений; в противном случае фиксируется отдельный служебный технический статус с нормализованной причиной отказа.

На локальном пилотном наборе из пяти основных пар и двух граничных случаев наблюдалось, что явный учет библиотечных зависимостей и раздельная фиксация технических ограничений прототипа позволяют получить более интерпретируемый результат, однако эти данные следует рассматривать как предварительные и не дающие оснований для окончательной валидации архитектуры на больших коллекциях.

Ключевые слова: приложение для платформы Android, статический анализ, анализ сходства программ, поиск модифицированных вариантов, перепакованные приложения, библиотечная зависимость, интерпретация результата, цифровая коллекция приложений.

Семантический анализ документов в системе управления цифровыми научными коллекциями

Шамиль Махмутович Хайдаров

61-85

Аннотация: Предложены методы семантического анализа документов в системе управления цифровыми научными коллекциями, в том числе электронными научными журналами. Рассмотрены методы обработки документов, содержащих математические формулы, а также способы конвертации этих документов из формата OpenXML в формат TeX. Разработан алгоритм поиска по формулам в коллекциях математических документов, хранящихся в формате OpenXML. Алгоритм реализован в виде онлайн-сервиса на платформе science.tatarstan.

Ключевые слова: семантический анализ, издательские системы.

Исследование алгоритмов обработки, детекции и защиты данных с целью минимизации воздействия вредоносного по и фишинговых атак на пользователей цифровых платформ

Татьяна Сергеевна Волокитина, Максим Олегович Таныгин

187-206

Аннотация:

Статья посвящена разработке научно-методического аппарата повышения эффективности защиты цифровых платформ от киберугроз путем создания алгоритмов обработки и детекции с учетом когнитивных особенностей пользователей. Предложена концептуальная модель трехэтапной системы защиты, интегрирующая технические механизмы безопасности с когнитивными моделями принятия решений. Разработан алгоритм эвристической детекции на основе машинного обучения Random Forest с анализом 47 признаков, включающих технические характеристики URL и когнитивно-семантические характеристики контента. Создана методика динамической интеграции четырех источников данных об угрозах, сокращающая время реагирования с 12–14 ч. до 2 ч. Предложен алгоритм рекурсивного анализа цепочек перенаправлений глубиной до десяти уровней для обнаружения замаскированных угроз. Экспериментальная валидация на эмпирической базе объемом около миллиона записей подтвердила точность детекции 87% при обработке ста тысяч записей в час. Разработанные решения обеспечивают соответствие требованиям ГОСТ Р 57580.1–2017 и российского законодательства в области защиты персональных данных.

Ключевые слова: эвристическая детекция угроз, машинное обучение, когнитивная безопасность, фишинговые атаки, социальная инженерия, защита данных, интеграция источников угроз.

1 - 6 из 6 результатов