Аннотация:
В настоящее время в машинном обучении высокую актуальность имеют синтетические данные. Современные алгоритмы генерации синтетических данных дают возможность генерации данных, очень близких по статистическим свойствам к исходным данным. Синтетические данные используются на практике в широком спектре задач, в том числе связанных с аугментацией данных.
Предложен метод аугментации данных, совмещающий подходы увеличения объема выборки с помощью синтетических данных и генерации синтетических аномалий. Метод использован для решения задачи в сфере информационной безопасности, заключающейся в поиске аномалий в журналах сервера с целью обнаружения атак.
Модель, обученная в рамках решения названной задачи, показала высокие результаты. Это демонстрирует эффективность использования синтетических данных для увеличения объема выборки и генерации аномалий, а также возможность с высокой результативностью использовать эти подходы совместно.