Опубликован: 14.06.2022
Весь выпуск
Статьи
Разработка мобильной системы сбора цифрового следа для использования при горизонтальном обучении
Горизонтальное обучение — это современная модель, альтернативная традиционному вертикальному обучению и основанная на сотрудничестве, взаимодействии между студентами в рамках образовательного процесса. При этом для промежуточной аттестации по дисциплине преподавателю необходимо оценить вклад каждого студента в решение групповой задачи.
На сегодняшний день пользователями мобильных приложений в разных областях оставляется огромное количество цифровых следов. Основными типами оставляемого цифрового следа являются текст, фотографии, видеозаписи, аудиозаписи, а также текущее местоположение.
Для содействия преподавателю при горизонтальном обучении нами разработано мобильное приложение, собирающее все вышеперечисленные виды цифрового следа, а также веб-приложение, анализирующее его.
Разработка экспертной системы по построению архитектуры программных продуктов
Статья посвящена автоматизации этапа проектирования программного обеспечения. Проанализированы причины высокого значения данного этапа и актуальность его автоматизации. Рассмотрены основные стадии названного этапа и существующие системы, позволяющие автоматизировать каждую из них. Предложено собственное решение в рамках задачи рефакторинга структуры классов на основе метода комбинаторной оптимизации. Разработан и протестирован на реальной модели метод решения, позволяющий улучшить качество иерархии классов.
Разработка методики сегментации пользователей с помощью алгоритмов кластеризации и расширенной аналитики
Статья посвящена созданию эффективного решения по сегментации пользователей. Представлены анализ существующих сервисов сегментации пользователей и подходов к их сегментации (ABCDx сегментация, демографическая сегментация, сегментация на основании карты пути пользователя), а также анализ алгоритмов кластеризации (K-means, Mini-Batch K-means, DBSCAN, Agglomerative Clustering, Spectral Clustering). Исследование названных подходов нацелено на создание решения по сегментации, «гибкого» и адаптирующегося под каждую пользовательскую выборку. Также применены дисперсионный анализ (тест ANOVA) и разбор метрик кластеризации для оценки качества сегментации пользователей. С помощью указанных методов разработано эффективное решение по сегментации пользователей с использованием технологии расширенной аналитики и машинного обучения.
Построение цифровой системы управления геологическими знаниями для поддержки научных исследований
Описаны новые подходы к сбору данных о научных публикациях из систем открытого доступа с тематикой «Науки о земле». На основе разработанных и адаптированных подходов созданы архив научных публикаций (репозиторий) и комплекс программ доступа к научным публикациям для сбора, поиска, фильтрации, каталогизации и управления публикациями и их метаданными. Для улучшения доступности публикаций и других связанных с ними данных, находящихся на сайтах Государственного геологического музея им. В.И. Вернадского РАН, разработана система Wiki – Геология России. Эта система является тематическим рубрикатором по направлению «Месторождения полезных ископаемых России», с дополнительной тематикой «Минералогия». Все статьи имеют ссылку на источник информации из архива научных публикаций и, опционально, дополнительные ссылки по сходной тематике. Wiki – Геология России являются первым шагом в создании базы знаний по месторождениям полезных ископаемых.
Разработка модуля проверки данных для удовлетворения метрики устаревания
Из года в год возрастает объем мирового рынка больших данных. Их анализ является неотъемлемой частью для принятия немедленных и надежных решений. Технологии больших данных ведут к значительному снижению стоимости за счет использования облачных сервисов, распределенных файловых систем, когда возникает потребность в хранении больших объемов информации. Их аналитика неразрывно связана с понятием качества данных, что особенно важно, если они имеют определенный срок хранения – метрику устаревания – и мигрируют из одного источника в другой, увеличивая риск потери данных. Предупреждение негативных последствий достигается за счет процесса сверки данных – комплексной проверки больших объемов информации с целью подтверждения их согласованности.
В статье рассмотрены вероятностные структуры данных, которые могут быть использованы для решения задачи, а также предложена реализация – модуль проверки целостности данных с использованием фильтра Блума с подсчетом. Данный модуль интегрирован в Apache Airflow для автоматизации процесса.
Анализ и разработка конвейера MLOps для развертывания моделей машинного обучения
Рост числа IT-продуктов с внедренными элементами машинного обучения (Machine Learning – ML) обуславливает повышение актуальности автоматизации процессов машинного обучения. Использование методов MLOps направлено на обеспечение обучения и эффективного развертывания приложений с производственной среде, автоматизируя решение побочных инфраструктурных вопросов слабо связанных с непосредственно разработкой модели.
Мы рассматриваем компоненты, принципы и подходы MLOps и анализируем существующие платформы и решения для построения конвейеров машинного обучения. Кроме того, предлагаем подход к построению конвейера машинного обучения на основе основных инструментов DevOps и библиотек с открытым исходным кодом.