Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Разработка методики сегментации пользователей с помощью алгоритмов кластеризации и расширенной аналитики

Даниил Андреевич Клинов, Карен Альбертович Григорян

137-147

Аннотация:

Статья посвящена созданию эффективного решения по сегментации пользователей. Представлены анализ существующих сервисов сегментации пользователей и подходов к их сегментации (ABCDx сегментация, демографическая сегментация, сегментация на основании карты пути пользователя), а также анализ алгоритмов кластеризации (K-means, Mini-Batch K-means, DBSCAN, Agglomerative Clustering, Spectral Clustering). Исследование названных подходов нацелено на создание решения по сегментации, «гибкого» и адаптирующегося под каждую пользовательскую выборку. Также применены дисперсионный анализ (тест ANOVA) и разбор метрик кластеризации для оценки качества сегментации пользователей. С помощью указанных методов разработано эффективное решение по сегментации пользователей с использованием технологии расширенной аналитики и машинного обучения.

Ключевые слова: Сегментация, кластеризация, дисперсионный анализ, машинное обучение, расширенная аналитика, тест ANOVA, продуктовая аналитика.

Информационно-аналитическая система сегментации изображений с помощью нейро-нечеткого подхода

Максим Владимирович Бобырь, Богдан Андреевич Бондаренко

601-621

Аннотация:

Представлена информационно-аналитическая система (ИАС) для высокоскоростной сегментации изображений в градациях серого, основанной на модифицированном методе дефаззификации с использованием треугольных функций принадлежности. Цель исследования заключается в анализе влияния упрощения формулы дефаззификации на точность и контрастность выделения объектов. Предложенный подход включает адаптивное обучение весового коэффициента, позволяющее динамически корректировать процесс дефаззификации в зависимости от целевых значений. Проведено сравнение базового метода усреднения значений принадлежности и модифицированного варианта с учетом нелинейных весов. Эксперименты, проведенные на изображениях формата 1024x720, продемонстрировали, что разработанная ИАС обеспечивает высокую точность сегментации и улучшенную контрастность объектов при минимальных вычислительных затратах. Результаты подтверждают превосходство предложенного метода над традиционными подходами, подчеркивая перспективы применения искусственного интеллекта в задачах компьютерного зрения.

Ключевые слова: ИАС, нейро-нечеткий алгоритм, сегментация изображений, дефаззификация, искусственный интеллект, метод отношения площадей.

Экспериментальное исследование порогового метода HSV и нейронной сети U-Net в задаче распознавания пожаров

Максим Владимирович Бобырь, Наталья Анатольевна Милостная, Богдан Андреевич Бондаренко, Максим Максимович Бобырь

829-851

Аннотация:

Проведен сравнительный анализ методов сегментации изображений пожара с использованием пороговой обработки в цветовом пространстве HSV и нейронной сети U-Net. Цель исследования заключалась в оценке эффективности этих подходов по времени выполнения и точности детекции огня на основе метрик RMSE, IoU, Dice и MAPE. Эксперименты были проведены на четырех различных изображениях пожара с вручную подготовленными истинными масками пожаров. Результаты показали, что метод HSV обеспечивает высокую скорость обработки (0.0010–0.0020 с), но склонен к детекции не только огня, но и дыма, что снижает его точность (IoU 0.0863–0.3357, Dice 0.1588–0.5026). Нейронная сеть U-Net демонстрирует более высокую точность сегментации огня (IoU – до 0.6015, Dice – до 0.7512) за счет избирательного выделения пламени, однако требует значительно большего времени (1.2477–1.3733 с) и может недооценивать общую площадь пожара (MAPE – до 78.5840%). Визуальная оценка подтвердила различия в поведении методов: HSV захватывает дым как часть целевой области, тогда как U-Net фокусируется исключительно на огне. Выбор между методами зависит от приоритетов задачи: скорости или точности. Предложены направления дальнейших исследований, включая оптимизацию U-Net и разработку гибридных подходов.

Ключевые слова: сегментирование, локализация пожаров, HSV-сегментация, U-Net.

Поиск слов в рукописном тексте на основе штриховой сегментации

Иван Дмитриевич Морозов, Леонид Моисеевич Местецкий

1435-1453

Аннотация:

Рукописные архивные документы составляют фундаментальную часть культурного наследия человечества, однако их анализ остается трудоемкой задачей для профессиональных исследователей-историков, филологов и лингвистов. В отличие от коммерческих приложений систем OCR (Optical Character Recognition, оптического распознавания символов), работа с историческими рукописями требует принципиально иного подхода из-за чрезвычайного многообразия почерков, наличия правок и деградации материалов.

Предложен метод поиска в рукописных текстах, основанный на штриховой сегментации. Вместо полного распознавания текста, часто недостижимого для исторических документов, метод позволяет эффективно отвечать на поисковые запросы исследователей. Ключевая идея заключается в декомпозиции текста на элементарные штрихи, формировании семантических векторных представлений с помощью контрастного обучения, последующей кластеризации и классификации для создания адаптивного словаря почерка.

Экспериментально показано, что поиск сравнением кортежей редуцированных последовательностей наиболее информативных штрихов по расстоянию Левенштейна обеспечивает достаточное качество для рассматриваемой задачи. Метод демонстрирует устойчивость к индивидуальным особенностям почерка и вариациям написания, что особенно важно для работы с авторскими архивами и историческими документами.

Предложенный подход открывает новые возможности для ускорения научных исследований в гуманитарной сфере, позволяя сократить время поиска нужной информации с недель до минут, что качественно меняет возможности исследовательской работы с большими архивами рукописных документов.

Ключевые слова: рукописный текст, поиск, штриховый анализ, сегментация, векторное представление, контрастное обучение, кластеризация.

Виртуальная выставка как средство интеграции в единое цифровое пространство научных знаний и информационные системы в области науки и культуры

Ирина Николаевна Соболевская, Александр Николаевич Сотников

98-114

Аннотация:

Рассмотрен принцип формирования виртуальных выставок как средства интеграции в Единое Цифровое Пространство Научных Знаний (ЕЦПНЗ) информационных систем в области науки и культуры с целью продвижения науки, обеспечения доступа к информации в разных областях науки, привлечения внимания к актуальным проблемам и достижениям в научной сфере. Представлены основные методы создания виртуальных выставок, включая выбор контента и разделение на основные разделы. Кроме того, предложена классификация виртуальных выставок на автономные, удаленные и комбинированные. Особое внимание уделено методологии формирования виртуальных выставок в МСЦ РАН. На примере межведомственной комбинированной виртуальной выставки предоставлено подробное описание выставки «Госпожа Пенициллин», посвященной создательнице пенициллина З. В. Ермольевой.

Ключевые слова: виртуальная выставка, Единое Цифровое Пространство Научных Знаний, Госпожа Пенициллин, связанные данные, З.В. Ермольева.

Анализ эффективности субсловных токенизаторов в малоресурсной лингвистической среде: опыт реализации на таджикском языке

Муллошараф Курбонович Арабов, Светлана Сергеевна Хайбуллина

546-564

Аннотация:

Рассмотрены современные подходы к субсловной токенизации текстов применительно к малоресурсному таджикскому языку, характеризуемому сложной морфологической структурой и высокой вариативностью словоформ. В ходе исследования был сформирован и предварительно обработан масштабный разнородный корпус, включающий 99 книг и 134497 текстовых статей различных жанров и тематик, общий объем которого превышает 33 млн токенов. Корпус был очищен от шумов, нормализован и использован в качестве основы для обучения и последующего тестирования субсловных моделей.

На базе названного корпуса были обучены и проанализированы пять моделей токенизации, реализующих алгоритмы BPE, WordPiece и Unigram с использованием библиотек Hugging Face Tokenizers и SentencePiece. Сравнительная оценка проведена по ряду ключевых показателей, включая долю неизвестных слов (OOV), степень сжатия текстового представления, скорость токенизации, а также характеристики распределения n-грамм, позволяющие оценить способность моделей отражать морфологическую и структурную организацию языка. Результаты экспериментов позволили выявить сильные и слабые стороны различных подходов к субсловной сегментации и определить наиболее эффективные стратегии токенизации в условиях морфологической сложности
таджикского языка. Полученные выводы могут быть использованы при разработке языковых моделей и прикладных NLP-инструментов для таджикского и других малоресурсных языков, способствуя расширению их присутствия в цифровой среде.

Ключевые слова: таджикский язык, субсловная токенизация, малоресурсные языки, BPE, Word-Piece, Unigram, Hugging Face Tokenizers, SentencePiece, корпусная лингвистика, обработка естественного языка (NLP).

Определение дефектов на стальных листах с использованием сверточных нейронных сетей

Родион Дмитриевич Гаскаров, Алексей Михайлович Бирюков, Алексей Федорович Никонов, Даниил Владиславович Агниашвили, Данил Айдарович Хайрисламов

1155-1171

Аннотация:

Сталь в наши дни является одним из важнейших производственных материалов, который используется повсеместно, от медицины до промышленных отраслей. Своевременное обнаружение и распознавание дефектов на стальных листах после проката – одна из ключевых проблем этого производства с учетом его сложности и необходимости затрат большого количества времени на проведение вручную проверок каждого листа и каждой заготовки. Одними из целей настоящей работы были автоматизация и упрощение данного процесса. Для решения соответствующих задач была использована, в первую очередь, модель сверточной нейронной сети под названием UNet, которая уже зарекомендовала себя как отличный инструмент решения таких задач — при высокой результативности она требует меньшего количества учебных данных. В основе этой модели лежат последовательная, производимая в несколько шагов свертка изображения до приемлемого размера (иными словами, сжатие или кодирование), а затем развертка, восстановление изображения к исходному размеру и соотношению сторон, после чего на выходе будет получена маска изображения с классами элементов, которые необходимо было найти. В дополнение к этой нейронной сети в качестве кодирующего (сворачивающего) слоя была использована другая модель — ResNet34, предварительно обученная на датасете (наборе данных) ImageNet1000. В этой модели также был модифицирован выходной слой — вместо 34 слоев с классами на выходе возвращалось лишь 4, что сократило время обработки и позволило использовать наиболее удачные определения в результатах. Используя данный подход и проведя все необходимые проверки, при подведении итогов, мы получили результат в 94,8% точности определения дефектов на стальных листах.

Ключевые слова: сверточные нейронные сети, нейронные сети, машинное обучение, сталь, искусственный интеллект, UNet, ResNet, определение дефектов, сегментация, классификация.

Автоматическое извлечение аргументативных отношений из текстов научной коммуникации

Юрий Алексеевич Загорулько, Елена Анатольевна Сидорова, Ирина Равильевна Ахмадеева

1070-1084

Аннотация:

Сложность задачи извлечения аргументативных структур связана с такими проблемами, как выделение аргументативных сегментов, прогнозирование дальних связей между неконтактными сегментами, обучение на данных, размеченных с низкой степенью согласованности между аннотаторами. В настоящей работе рассмотрен подход к извлечению аргументативных отношений из достаточно больших текстов, относящихся к области научной коммуникации. Проведен сравнительный анализ методов тонкой настройки с использованием предобученной языковой модели типа Longformer, позволяющей учитывать длинные контексты, и двух методов, позволяющих учитывать расхождения аннотаторов в разметке аргументов за счет использования так называемых мягких меток, полученных путем равномерного сглаживания меток и усреднения экспертных оценок. Эксперименты проводились на четырех наборах данных, содержащих положительные и отрицательные примеры пар утверждений (посылка, заключение) и различающихся способами сегментации и средним размером текста. Наилучшие результаты получены на модели с усреднением экспертных оценок. В то же время отмечено, что модель, использующая сглаженные метки, также повышает точность классификаторов, но ухудшает полноту.

Ключевые слова: анализ аргументации, извлечение аргументативных отношений, научная коммуникация, проблемы сегментации, мягкая метка, сглаживание меток, языковая модель.

1 - 8 из 8 результатов