Найти

Классификация изображений с использованием обучения с подкреплением

Артем Александрович Елизаров, Евгений Викторович Разинков

1172-1191

Аннотация:

В последнее время активно развивается такое направление машинного обучения, как обучение с подкреплением. Как следствие предпринимаются попытки использования обучения с подкреплением для решения задач компьютерного зрения, в частности для решения задачи классификации изображений. Задачи компьютерного зрения являются на сегодняшний день одними из наиболее актуальных задач искусственного интеллекта.

В статье предложен метод классификации изображений в виде глубокой нейронной сети с использованием обучения с подкреплением. Идея разработанного метода сводится к решению задачи о контекстном многоруком бандите с помощью различных стратегий достижения компромисса между эксплуатацией и исследованием и алгоритмов обучения с подкреплением. Рассмотрены такие стратегии, как -жадная, -softmax, -decay-softmax и метод UCB1, и такие алгоритмы обучения с подкреплением, как DQN, REINFORCE и A2C. Проведен анализ влияния различных параметров на эффективность работы.

Ключевые слова: машинное обучение, классификация изображений, обучение с подкреплением, задача о контекстном многоруком бандите.

Анализ моделей машинного обучения на основе методов объяснимого искусственного интеллекта в образовательной аналитике

Дмитрий Артурович Минуллин, Фаиль Мубаракович Гафаров

294-315

Аннотация:

Проблема прогнозирования досрочного отчисления студентов российских вузов является актуальной, поэтому требуется разработка новых инновационных подходов для её решения. Для решения данной проблемы возможна разработка предиктивных систем на основе использования данных о студентах, имеющихся в информационных системах вузов. В настоящей работе исследованы модели машинного обучения для прогнозирования досрочного отчисления студентов, обученные на основе данных о характеристиках и успеваемости студентов. Основная научная новизна работы заключается в использовании методов объяснимого ИИ для интерпретации и объяснения функционирования обученных моделей машинного обучения. Методы объяснимого искусственного интеллекта позволяют понять, какие из входных признаков (характеристик студента) оказывают наибольшее влияние на результаты прогнозов обученных моделей, а также могут помочь понять, почему модели принимают те или иные решения. Полученные результаты расширяют понимание влияния различных факторов на досрочное отчисление студентов.

Ключевые слова: образовательная аналитика, интеллектуальный анализ данных, машинное обучение, объяснимый искусственный интеллект.

Автоматическая разметка обучающих выборок в компьютерном зрении с использованием методов машинного обучения

Алексей Константинович Журавлёв, Карен Альбертович Григорян

718-729

Аннотация:

Рассмотрена проблема автоматической разметки обучающих выборок в области компьютерного зрения с использованием методов машинного обучения.

Разметка данных является ключевым этапом в разработке и обучении моделей глубокого обучения, однако процесс создания размеченных данных зачастую требует значительных временных и трудовых затрат. В статье предложен механизм автоматической разметки, основанный на использовании сверточных нейронных сетей и методов активного обучения.

Предложенная методология включает анализ и оценку существующих подходов к автоматической разметке. Эффективность предложенных решений оценена на общедоступных наборах данных. Результаты показали, что предложенный метод в значительной мере сокращает время, необходимое для разметки данных, но в любом случае требует вмешательства оператора-разметчика.

Обзор литературы включает анализ современных методов разметки и существующих автоматических систем, что позволяет лучше понять контекст и преимущества предлагаемого подхода. В заключении обсуждены достижения, ограничения и возможные направления для будущих исследований в данной области.

Ключевые слова: компьютерное зрение, машинное обучение, автоматическая разметка данных, обучающая выборка, сегментация изображений.

Анализ и разработка конвейера MLOps для развертывания моделей машинного обучения

Рустем Рафикович Ямиков, Карен Альбертович Григорян

177-196

Аннотация:

Рост числа IT-продуктов с внедренными элементами машинного обучения (Machine Learning – ML) обуславливает повышение актуальности автоматизации процессов машинного обучения. Использование методов MLOps направлено на обеспечение обучения и эффективного развертывания приложений с производственной среде, автоматизируя решение побочных инфраструктурных вопросов слабо связанных с непосредственно разработкой модели.

Мы рассматриваем компоненты, принципы и подходы MLOps и анализируем существующие платформы и решения для построения конвейеров машинного обучения. Кроме того, предлагаем подход к построению конвейера машинного обучения на основе основных инструментов DevOps и библиотек с открытым исходным кодом.

Ключевые слова: MLOps, DevOps, CI/CD, CT, ML, конвейер машинного обучения.

Автоматическое аннотирование html-документов по стандарту Microdata

Тимур Фердинандович Ибрагимов, Александр Андреевич Ференец

730-744

Аннотация:

Описана разработка на основе методов машинного обучения приложения для автоматического аннотирования веб-страниц по стандарту Microdata с возможностью расширения для других стандартов и с внедрением данных в JSX-файлы. Собраны и подготовлены датасеты для обучения моделей Machine Learning (ML). Собраны и проанализированы метрики модели ML.

Ключевые слова: Microdata, семантическая разметка, HTML5, поисковая оптимизация (SEO), поисковые системы, машинное обучение, schema.org, семантический веб, стандарты разметки, автоматизация SEO.

Применение методов машинного обучения для выявления взаимосвязи академической успеваемости и данных профиля социальной сети

Ильяс Раисович Ихсанов, Ирина Сергеевна Шахова

95-118

Аннотация: Предложена модель машинного обучения для выявления взаимосвязи между данными профиля социальной сети и академической успеваемости учащегося, а также прогнозирования среднего балла успеваемости по данным параметрам.

Ключевые слова: машинное обучение, социальные сети, психометрия, академическая успеваемость, образование, абитуриент.

Сигнатурные методы анализа временных рядов

Кирилл Алексеевич Мащенко

681-700

Аннотация:

Сигнатурные методы представляют собой мощный инструмент анализа временных рядов, который преобразует их в форму, удобную для задач машинного обучения. В статье рассмотрены основные понятия сигнатуры пути, ее свойства и геометрический смысл, а также методы вычисления для различных типов временных рядов. Приведены примеры применения сигнатурных методов в различных областях, включая финансы, медицину и образование, продемонстрированы их преимущества перед традиционными подходами. Особое внимание уделено генерации синтетических данных на основе сигнатур, что особенно актуально в условиях ограниченного объема исходных данных. Представлены результаты экспериментальных исследований по генерации и предсказанию траекторий цифрового следа обучения студентов, подтверждающие эффективность сигнатурных методов для применения в задачах машинного обучения по анализу и прогнозированию временных рядов.

Ключевые слова: сигнатура, сигнатурные методы, временные ряды, генерация данных, анализ траекторий, цифровой след.

Использование общедоступных архивов данных обработки ионограмм вертикального радиозондирования в роли первоначальной разметки для машинного обучения

Андрей Олегович Щирый

532-545

Аннотация:

В работе выдвинута идея использования имеющихся больших массивов результатов обработки ионограмм вертикального радиозондирования ионосферы в качестве обучающих датасетов для построения предиктивных моделей методами машинного обучения. Рассмотрены наиболее популярные форматы сохранения результатов обработки ионограмм, а также некоторые интернет-ресурсы с архивами свободно доступных файлов этих форматов. Указанные датасеты используются для построения предиктивных моделей, в том числе временных рядов критических частот ионосферных слоев. Отмечена также возможность использования некоторых датасетов результатов обработки ионограмм для обучения моделей, предназначенных для автоматической обработки ионограмм.

Ключевые слова: ионосфера, радиозондирование, вертикальное зондирование ионосферы, ионограмма, характеристики ионосферы, метаданные.

Применение методов машинного обучения для повышения качества тестов

Рамиль Радикович Минюков, Михаил Михайлович Абрамский

701-717

Аннотация:

Работа посвящена применению методов машинного обучения для повышения качества тестов. Проведен обзор предметной области и реализованы два метода повышения качества: поиск похожих вопросов и оценка качества дистракторов. Первый включает тестирование пяти моделей трансформеров для получения векторного представления текста и шесть алгоритмов кластеризации. Второй метод основан на использовании тех же моделей трансформеров совместно с тремя алгоритмами классификации. Результаты экспериментов показали высокую эффективность предложенных решений при решении обеих задач.

Ключевые слова: анализ тестовых вопросов, дистракторы, машинное обучение, прохождение тестов, тесты, повышение качества тестов.

Опыт построения системы автоматического определения тональности объектов на основе синтактико-семантического анализатора

Павел Юрьевич Поляков, Мария Викторовна Калинина, Владимир Владимирович Плешко

185-202

Аннотация: Исследуется применение лингвистического подхода для решения задачи автоматического определения тональности объекта. Исследование проводилось в рамках цикла тестирования систем автоматического анализа тональности SentiRuEval. Задание, предложенное организаторами дорожки, заключалось в том, чтобы определить мнение пользователя (положительное, отрицательное или нейтральное) по отношению к операторам сотовой связи на материале сообщений социальной сети Twitter и новостей. Авторы настоящей работы исключили новостные сообщения из тестовой коллекции, так как формальные тексты существенно отличаются от неформальных по своей структуре и лексике и, следовательно, требуют другого подхода. При решении поставленной задачи был использован лингвистический метод, основанный на синтактико-семантическом анализе. Согласно этому подходу тональная лексика привязывается к объекту на одной из двух последовательных стадий. Первая стадия включает в себя использование семантических шаблонов, которые сравниваются с деревом синтаксического разбора предложения; вторая стадия использует эвристики для связывания тональной лексики с объектом оценки в случае, когда синтаксические связи между ними отсутствуют. Машинное обучение не применялось. Метод продемонстрировал очень хорошие результаты, которые примерно совпадают с лучшими результатами методов с использованием машинного обучения и гибридных методов.

Ключевые слова: определение тональности, анализ мнений, тональность объектов, тональность атрибутов, синтактико-семантический анализ, семантические шаблоны.

Вычислительная модель эмоций в интеллектуальных информационных системах

Максим Олегович Таланов, Александр Сергеевич Тощев

231-241

Аннотация: Проведено исследование эмоций в различных аспектах: философском, психологическом и нейрофизиологическом; с их учетом описана созданная когнитив-ная архитектура. На основе «куба эмоций» Левхайма, «колеса эмоций» Плутчика, «теории аффектов» Томкинса и модели мышления Мински охарактеризовано использование эмоций как факторов влияния на вычислительный процесс компьютера. Указаны также возможности использования эмоций в интеллектуальных вопросно-ответных системах.

Ключевые слова: искусственный интеллект, виртуальный помощник, социальный агент, эмоции, модели мышления, вычислительные эмоции.

Извлечение аспектов товаров или услуг из отзывов потребителей с использованием модели условных случайных полей

Юлия Владимировна Рубцова, Сергей Андреевич Кошельников

203-221

Аннотация: Описана система, принимавшая участие в соревновании SentiRuEval-2015 по автоматическому извлечению аспектов из отзывов и оценке этих аспектов по тональности. В основе разработанной системы лежит алгоритм условных случайных полей (CRF), она использовалась в решении двух подзадач и тестировалась на двух предметных областях: рестораны и автомобили. Для обеих задач и обеих предметных областей показаны высокие показатели метрики полноты. Это означает, что система может вполне успешно находить аспектные термины. Вместе с тем, полученный низкий показатель точности свидетельствует о том, что система принимает за аспектные достаточно много терминов, которые аспектными не являются. В целом же система показала сравнительно хорошие результаты по сравнению с другими участниками соревнования.

Ключевые слова: извлечение знаний, извлечение аспектов, CRF.

Применение алгоритма Дугласа–Пеккера в вопросах онлайн-аутентификации инструментов удалённой работы при подготовке специалистов укрупнённой группы специальностей 10.00.00 «Информационная безопасность»

Антон Григорьевич Уймин, Владимир Сергеевич Греков

679-694

Аннотация:

В условиях перехода образовательных систем на дистанционное обучение, а также развития тренда на удалённую работу, возникла острая потребность в разработке надежных технологий биометрической идентификации и аутентификации для верификации исполнителей работ в режиме удаленной работы. Такие технологии позволяют обеспечить высокую степень защиты и удобство использования, что делает вопросы их разработки и оптимизации крайне важными.

Проблема заключается в необходимости повышения точности и эффективности систем распознавания движений манипулятора «мышь» без использования специализированных устройств в максимально короткий промежуток времени. Для ее решения требуется эффективная предобработка таких движений, чтобы упростить их траектории, сохранив при этом их ключевые особенности.

В статье предложено использование алгоритма Дугласа–Пеккера для предварительной обработки данных траекторий движений «мыши». Этот алгоритм позволяет значительно уменьшить количество точек в траекториях, упрощая их при сохранении основной формы движений. Данные с упрощенными траекториями затем используются для обучения нейронных сетей.

Экспериментальная часть работы показала, что применение алгоритма Дугласа–Пеккера позволяет сократить количество точек в траекториях на 60%, что приводит к увеличению точности распознавания движений с 70% до 82%. Такое упрощение данных способствует ускорению процесса обучения нейронных сетей и повышению их операционной эффективности.

Проведенное исследование подтвердило эффективность использования алгоритма Дугласа–Пеккера для предварительной обработки данных в задачах распознавания движений «мыши». Полученные результаты могут найти применение в разработке более интуитивно понятных и адаптивных пользовательских интерфейсов.

Предложены также направления для дальнейших исследований, включая оптимизацию параметров алгоритма для различных типов движений и исследование возможности его комбинирования с другими методами машинного обучения.

Ключевые слова: аутентификация, биометрическая идентификация, удалённая работа, дистанционное обучение, алгоритм Дугласа–Пеккера, предобработка данных, нейросеть, HID-устройство, траектория движений «мыши», оптимизация данных.

Автоматизации процесса разработки интерактивных прототипов android-приложений на основе низкодетализированных макетов

Анатолий Сергеевич Хлопунов, Ирина Сергеевна Шахова

160-172

Аннотация: Приведены механизмы автоматизации процесса разработки интерактивных прототипов мобильных приложений на основе рукописных макетов. Процесс автоматизации включает в себя использование методов машинного обучения для распознавания рукописных макетов. Для обеспечения взаимодействия пользователя с предложенными механизмами реализовано мобильное Android-приложение.

Ключевые слова: прототипирование, UI, UX, мобильные приложения, пользовательский интерфейс.

Нейросетевая архитектура воплощенного интеллекта

Айрат Рафкатович Нурутдинов

598-655

Аннотация:

В последние годы достижения в области искусственного интеллекта (ИИ) и машинного обучения обусловлены успехами в разработке больших языковых моделей (LLM) на основе глубоких нейронных сетей. В то же время, несмотря на существенные возможности, LLM имеет такие принципиальные ограничения, как спонтанная недостоверность в фактах и суждениях; допущение простых ошибок, диссонирующих с высокой компетентностью в целом; легковерие, проявляющееся в готовности принимать за истину заведомо ложные утверждения пользователя; отсутствие сведений о событиях, произошедших после завершения обучения.

Вероятно, ключевой причиной является то, что обучение биологического интеллекта происходит через усвоение неявных знаний воплощенной формой интеллекта, позволяющей решать интерактивные физические задачи реального мира. Биоинспирированные исследования нервных систем организмов позволяют рассматривать мозжечок, координирующий движения и поддерживающий равновесие, в качестве главного кандидата для раскрытия методов реализации воплощенного физического интеллекта. Его простая повторяющаяся структура и способность управлять сложными движениями дают надежду на возможность создания аналога адаптивным нейронным сетям.

В настоящей работе изучается биоинспирированная архитектура мозжечка как форма аналоговых вычислительных сетей, способная моделировать сложные физические системы реального мира. В качестве простого примера представлена реализация воплощенного ИИ в виде многокомпонентной модели щупальца осьминога, демонстрирующей потенциал в создании адаптивных физических систем, обучающихся и взаимодействующих с окружающей средой.

Ключевые слова: Искусственные нейронный сети, большие языковые модели, неявное обучение, мозжечок, аналоговые компьютеры, воплощенный интеллект, мягкие роботы, осьминоги.

Искусственный интеллект в решении проблемы онкопрофилактики: ретроспективное исследование

Петр Александрович Филоненко, Владимир Николаевич Кох, Павел Дмитриевич Блинов

1253-1266

Аннотация:

Исследована возможность эффективного решения задачи популяционной онкопрофилактики с помощью методов искусственного интеллекта (ИИ), прогнозирующих риск злокачественных новообразований (ЗНО) на основе минимального набора данных из электронной медицинской карты (ЭМК) – кодов медицинских диагнозов и услуг. Для решения поставленной задачи рассмотрен широкий спектр современных подходов, включающих методы классического машинного обучения, анализа выживаемости, глубокого обучения и больших языковых моделей (LLM). Численные эксперименты показали, что наилучшей способностью ранжирования пациентов по уровню риска ЗНО обладает градиентный бустинг, использующий модели анализа выживаемости в качестве дополнительных предикторов, что позволяет учитывать как популяционные, так и индивидуальные факторы риска ЗНО. Из данных ЭМК были сконструированы предикторы, включающие демографические характеристики, паттерны обращений за медицинской помощью и клинические маркеры. Это решение было протестировано в ретроспективных экспериментах под контролем профильных врачей-онкологов. В ретроспективном эксперименте с участием более 1.9 млн пациентов установлено, что в группу риска попадает до 5.4 раза больше пациентов с ЗНО при том же уровне медицинских обследований. Предложенный метод представляет собой масштабируемое решение, использующее исключительно коды диагнозов и услуг, не требующее специализированной инфраструктуры и интегрируемое в процесс онконастороженности, что делает его применимым для решения задач популяционной онкопрофилактики.

Ключевые слова: ИИ в медицине, популяционная онкопрофилактика, ретроспективные эксперименты.

Разработка системы эмоциональной оценки на основе обучения с подкреплением и нейробиологически инспирированных методов

Евгения Юрьевна Майорова, Максим Олегович Таланов, Роберт Лоу

193-215

Аннотация:

Объектом проведенного исследования является эмоциональная оценка искусственного интеллекта. В качестве системы реализации эмоциональной оценки выбрана система обучения с подкреплением. В результате симуляции построенной модели получены графики, показывающие активность структур мозга, участвующих в процессе их воздействия друг на друга. В ходе настройки системы удалось добиться четырех вспышек активности на таламусе вместо ожидаемых пяти.

Ключевые слова: NEST, NeuCogAR, куб Лёвхейма, эмоциональная оценка.

Анализ моделей векторных представлений слов в задаче разметки семантических ролей в русскоязычных текстах

Лейсан Маратовна Кадермятова, Елена Викторовна Тутубалина

1026-1043

Аннотация: Изучено влияние использования векторных представлений слов на качество установления семантических ролей в русскоязычных текстах. Задача установления семантических ролей в русскоязычных текстах получила широкое распространение после выхода на свет корпуса FrameBank. Были исследованы модели векторных представлений слов word2vec, fastText и ELMo (Embeddings from Language Models). Анализировались метрики качества микро- и макро-F1 как оценочные показатели результатов автоматической разметки актантов. Был проведен ряд экспериментов, демонстрирующих, что модели ELMo, основанные на токенах предикатно-аргументных конструкций, показывают больший прирост качества по сравнению со всеми остальными моделями, в том числе, в сопоставлении с моделями ELMo, обученными на леммах, как по величине микро-F1, так и по величине макро-F1.

Ключевые слова: машинное обучение, обработка естественного языка, векторные представления слов, семантические роли.

Применение синтетических данных в задаче обнаружения аномалий в сфере информационной безопасности

Артем Игоревич Гурьянов

187-200

Аннотация:

В настоящее время в машинном обучении высокую актуальность имеют синтетические данные. Современные алгоритмы генерации синтетических данных дают возможность генерации данных, очень близких по статистическим свойствам к исходным данным. Синтетические данные используются на практике в широком спектре задач, в том числе связанных с аугментацией данных.

Предложен метод аугментации данных, совмещающий подходы увеличения объема выборки с помощью синтетических данных и генерации синтетических аномалий. Метод использован для решения задачи в сфере информационной безопасности, заключающейся в поиске аномалий в журналах сервера с целью обнаружения атак.

Модель, обученная в рамках решения названной задачи, показала высокие результаты. Это демонстрирует эффективность использования синтетических данных для увеличения объема выборки и генерации аномалий, а также возможность с высокой результативностью использовать эти подходы совместно.

Ключевые слова: синтетические данные, обнаружение аномалий, информационная безопасность, генерация аномалий, аугментация данных, машинное обучение.

Разработка методики сегментации пользователей с помощью алгоритмов кластеризации и расширенной аналитики

Даниил Андреевич Клинов, Карен Альбертович Григорян

137-147

Аннотация:

Статья посвящена созданию эффективного решения по сегментации пользователей. Представлены анализ существующих сервисов сегментации пользователей и подходов к их сегментации (ABCDx сегментация, демографическая сегментация, сегментация на основании карты пути пользователя), а также анализ алгоритмов кластеризации (K-means, Mini-Batch K-means, DBSCAN, Agglomerative Clustering, Spectral Clustering). Исследование названных подходов нацелено на создание решения по сегментации, «гибкого» и адаптирующегося под каждую пользовательскую выборку. Также применены дисперсионный анализ (тест ANOVA) и разбор метрик кластеризации для оценки качества сегментации пользователей. С помощью указанных методов разработано эффективное решение по сегментации пользователей с использованием технологии расширенной аналитики и машинного обучения.

Ключевые слова: Сегментация, кластеризация, дисперсионный анализ, машинное обучение, расширенная аналитика, тест ANOVA, продуктовая аналитика.

Вариации спектрального состава микросейсм как прогнозный параметр землетрясений в байкальской рифтовой системе

Людмила Петровна Брагинская, Андрей Павлович Григорюк, Валерий Викторович Ковалевский, Анна Александровна Добрынина, Матвей Сергеевич Ким

727-739

Аннотация:

Исследован спектральный состав микросейсмического шума за несколько часов до умеренных и сильных сейсмических событий. Рассмотрены 40 землетрясений с энергетическим классом К = 9.5–14.5 на эпицентральных расстояниях от 10 до 120 км. Установлено статистически значимое повышение спектральной плотности мощности (СПМ) в диапазоне 0.8–2.4 Гц. Методами машинного обучения построена модель бинарной классификации, позволяющая по значениям СПМ микросейсм в указанном диапазоне частот определить процессы подготовки землетрясений за несколько часов до толчка.

Ключевые слова: геофизический мониторинг, машинное обучение, цифровая платформа, предвестники, сейсмический прогноз, землетрясения.

Применение моделей мышления в интеллектуальных вопросно-ответных системах

Александр Сергеевич Тощев

222-230

Аннотация: Описана эволюция моделей мышления в рамках решения задачи построения интеллектуальной вопросно-ответной системы для автоматизации обработки запросов пользователей на естественном языке, начиная от простой модели на основе деревьев решений и заканчивая полноценной моделью мышления, основанной на модели мышления человека Марвина Мински. Каждая модель разработана и протестирована. Приведены результаты экспериментов и сделаны выводы о состоятельности каждой из моделей.

Ключевые слова: искусственный интеллект, машинное обучение, системный анализ, машинное мышление, обработка естественного языка, деревья решений.

Исследование алгоритмов обработки, детекции и защиты данных с целью минимизации воздействия вредоносного по и фишинговых атак на пользователей цифровых платформ

Татьяна Сергеевна Волокитина, Максим Олегович Таныгин

187-206

Аннотация:

Статья посвящена разработке научно-методического аппарата повышения эффективности защиты цифровых платформ от киберугроз путем создания алгоритмов обработки и детекции с учетом когнитивных особенностей пользователей. Предложена концептуальная модель трехэтапной системы защиты, интегрирующая технические механизмы безопасности с когнитивными моделями принятия решений. Разработан алгоритм эвристической детекции на основе машинного обучения Random Forest с анализом 47 признаков, включающих технические характеристики URL и когнитивно-семантические характеристики контента. Создана методика динамической интеграции четырех источников данных об угрозах, сокращающая время реагирования с 12–14 ч. до 2 ч. Предложен алгоритм рекурсивного анализа цепочек перенаправлений глубиной до десяти уровней для обнаружения замаскированных угроз. Экспериментальная валидация на эмпирической базе объемом около миллиона записей подтвердила точность детекции 87% при обработке ста тысяч записей в час. Разработанные решения обеспечивают соответствие требованиям ГОСТ Р 57580.1–2017 и российского законодательства в области защиты персональных данных.

Ключевые слова: эвристическая детекция угроз, машинное обучение, когнитивная безопасность, фишинговые атаки, социальная инженерия, защита данных, интеграция источников угроз.

Создание генератора псевдослов и классификация их схожести со словами словаря русского языка методами машинного обучения

Кирилл Алексеевич Ромаданский, Артемий Евгеньевич Ахаев, Тагмир Радикович Гилязов

145-162

Аннотация:

Под псевдословом понимается единица речи или текста, которая выглядит как реальное слово на русском языке, но на самом деле не имеет значения, а под настоящим или естественным словом – единица речи или текста, которая имеет толкование и представлена в словаре. Представлены две модели для работы с русским языком: генератор псевдослов и классификатор, оценивающий степень схожести введенной последовательности символов с настоящими словами. Классификатор использован для оценки результатов генератора. Обе модели основаны на рекуррентной нейронной сети с долгой краткосрочной памятью и обучены на датасете существительных русского языка. В результате создан файл, содержащий список сгенерированных псевдослов, оцененных классификатором. Псевдослова могут найти применение в задачах нейминга, брендирования и макетирования, в искусстве, для создания креативных произведений, и в языковых исследованиях, для изучения структуры языка и слов.

Ключевые слова: генерация слов, псевдослово, нейронная сеть, рекуррентная нейронная сеть, долгая краткосрочная память.

Результаты поиска