Повышение устойчивости классификации коротких текстов к стохастическому шуму на основе плотностной очистки обучающих выборок

Басар Бауржанович Баишев; Андрей Петрович Халов

doi:10.26907/1562-5419-2026-29-3-681-698

PDF

Опубликован: 16.06.2026

УДК 004

DOI: https://doi.org/10.26907/1562-5419-2026-29-3-681-698

Выпуск

Том 29 № 3 (2026)

Басар Бауржанович Баишев

Назарбаев Университет, г. Астана, Казахстан

https://orcid.org/0009-0007-9287-4248

Андрей Петрович Халов

Федеральный исследовательский центр «Информатика и управление» Российской академии наук, г. Москва, Россия

https://orcid.org/0009-0005-4584-8245

Аннотация

Рассмотрена задача классификации коротких текстовых заявок в условиях значительного дисбаланса классов и зашумленности реальных потоков обращений. Показана ограниченная эффективность методов синтетического расширения выборки при работе с зашумленной разметкой. Предложен гибридный метод, сочетающий предварительную плотностную очистку данных и многоуровневое ансамблирование моделей. Применение алгоритма плотностной кластеризации позволило исключить 16.5% информационного шума от общего объема выборки. Финальная модель представлена двухуровневой архитектурой и оптимизирована с помощью байесовского поиска гиперпараметров. На отложенной тестовой выборке достигнуто значение метрики R@3, равное 97.4%. Предложенный метод позволяет автоматизировать процесс распределения заявок, существенно снижая нагрузку на операторов и сокращая время диспетчеризации обращений.

Ключевые слова:

обработка естественного языка, зашумленные текстовые данные, ансамблевое обучение, робастная классификация, фильтрация шума.

Как цитировать

Баишев, Б. Б., и А. П. Халов. «Повышение устойчивости классификации коротких текстов к стохастическому шуму на основе плотностной очистки обучающих выборок». Электронные библиотеки, т. 29, вып. 3, июнь 2026 г., сс. 681-98, doi:10.26907/1562-5419-2026-29-3-681-698.

Библиографические ссылки

1. Zhang Y. et al. Deep Long-Tailed Learning: A Survey // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2023. Vol. 45, No. 3. P. 3079–3099. https://doi.org/10.1109/TPAMI.2021.3114116
2. Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. SMOTE: synthetic minority over-sampling technique // Journal of Artificial Intelligence Research. 2002. Vol. 16. P. 321–357. https://doi.org/10.1613/jair.953
3. Zha D. et al. Data-centric Artificial Intelligence: A Survey // ACM Computing Surveys. 2025. Vol. 57, No. 5. Article 129.https://doi.org/10.1145/3711118
4. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval // Information Processing & Management. 1988. Vol. 24, No. 5. P. 513–523. https://doi.org/10.1016/0306-4573(88)90021-0
5. Batiuk T., Dosyn D. Intellectual analysis of textual data in social networks using BERT and XGBOOST // Vìsnik Nacìonalʹnogo Unìversitetu Lʹvìvsʹka Polìtehnìka Serìâ Ìnformacìjnì Sistemi Ta Merežì. 2025. Vol. 17. P. 44–60. https://doi.org/10.23939/sisn2025.17.044
6. Parmar M., Tiwari A. Enhancing text classification performance using stacking ensemble method with TF-IDF feature extraction // Proceedings of the 5th International Conference on Mobile Computing and Sustainable Informatics (ICMCSI). Kathmandu, Nepal. 2024. P. 166–174. https://doi.org/10.1109/ICMCSI61480.2024.10493890
7. Zemp M. Text classification of service desk tickets. Master's thesis. Winterthur, Zurich University of Applied Sciences. 2021. https://www.zhaw.ch/storage/shared/upload/MAS21_Ticket_Classification_Zemp.pdf
8. Akhbardeh F., Alm C.O., Zampieri M., Desell T. Handling extreme class imbalance in technical logbook datasets // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP). Online. 2021. P. 4034–4045. https://doi.org/10.18653/v1/2021.acl-long.312
9. Padurariu C., Breaban M.E. Dealing with data imbalance in text classification // Procedia Computer Science. 2019. Vol. 159. P. 736–745. https://doi.org/10.1016/j.procs.2019.09.229
10. Asyaky M.S., Mandala R. Improving the performance of HDBSCAN on short text clustering by using word embedding and UMAP // 2021 8th International Conference on Advanced Informatics: Concepts, Theory and Applications (ICAICTA). Bandung, Indonesia. 2021. P. 1–6. https://doi.org/10.1109/ICAICTA53211.2021.9640285
11. McInnes L., Healy J., Astels S. hdbscan: Hierarchical density based clustering // Journal of Open Source Software. 2017. Vol. 2, No. 11. P. 205. https://doi.org/10.21105/joss.00205
12. Khalov A.P., Ataeva O.M. Automatic and semi-automatic methods for constructing a domain knowledge graph and ontology expansion // Russian Digital Libraries Journal. 2025. Vol. 28, No. 6. P. 1481–1519 (in Russian). https://doi.org/10.26907/1562-5419-2025-28-6-1481-1519
13. Wolpert D.H. Stacked generalization // Neural Networks. 1992. Vol. 5, No. 2. P. 241–259. https://doi.org/10.1016/S0893-6080(05)80023-1
14. Charikar M.S. Similarity estimation techniques from rounding algorithms // Proceedings of the thirtieth annual ACM symposium on Theory of computing (STOC). 2002. P. 380–388. https://doi.org/10.1145/509907.509965
15. Micci-Barreca D. A preprocessing scheme for high-cardinality categorical attributes in classification and prediction problems // SIGKDD Explorations Newsletter. 2001. Vol. 3, No. 1. P. 27–32. https://doi.org/10.1145/507533.507538
16. Chen T., Guestrin C. XGBoost: A scalable tree boosting system // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). San Francisco, USA. 2016. P. 785–794. https://doi.org/10.1145/2939672.2939785
17. Akiba T., Sano S., Yanase T., Ohta T., Koyama M. Optuna: A next-generation hyperparameter optimization framework // Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD). Anchorage, USA. 2019. P. 2623–2631. https://doi.org/10.1145/3292500.3330701

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Представляя статьи для публикации в журнале «Электронные библиотеки», авторы автоматически дают согласие предоставить ограниченную лицензию на использование материалов Казанскому (Приволжскому) федеральному университету (КФУ) (разумеется, лишь в том случае, если статья будет принята к публикации). Это означает, что КФУ имеет право опубликовать статью в ближайшем выпуске журнала (на веб-сайте или в печатной форме), а также переиздавать эту статью на архивных компакт-дисках журнала или включить в ту или иную информационную систему или базу данных, производимую КФУ.

Все авторские материалы размещены в журнале «Электронные библиотеки» с ведома авторов. В случае, если у кого-либо из авторов есть возражения против публикации его материалов на данном сайте, материал может быть снят при условии уведомления редакции журнала в письменной форме.

Документы, изданные в журнале «Электронные библиотеки», защищены законодательством об авторских правах, и все авторские права сохраняются за авторами. Авторы самостоятельно следят за соблюдением своих прав на воспроизводство или перевод их работ, опубликованных в журнале. Если материал, опубликованный в журнале «Электронные библиотеки», с разрешения автора переиздается другим издателем или переводится на другой язык, то ссылка на оригинальную публикацию обязательна.

Передавая статьи для опубликования в журнале «Электронные библиотеки», авторы должны принимать в расчет, что публикации в интернете, с одной стороны, предоставляют уникальные возможности доступа к их материалам, но, с другой, являются новой формой обмена информацией в глобальном информационном обществе, где авторы и издатели пока не всегда обеспечены защитой от неправомочного копирования или иного использования материалов, защищенных авторским правом.

При использовании материалов из журнала обязательна ссылка на URL: http://rdl-journal.ru. Любые изменения, дополнения или редактирования авторского текста недопустимы. Копирование отдельных фрагментов статей из журнала разрешается для научных исследований, персонального использования, коммерческого использования до тех пор, пока есть ссылка на оригинальную статью.

Запросы на право переиздания или использования любых материалов, опубликованных в журнале «Электронные библиотеки», следует направлять главному редактору Елизарову А.М. по адресу: amelizarov@gmail.com

Издатели журнала «Электронные библиотеки» не несут ответственности за точки зрения, излагаемые в публикуемых авторских статьях.

Предлагаем авторам статей загрузить с этой страницы, подписать и выслать в адрес издателя журнала по электронной почте скан Авторского договора о передаче неисключительных прав на использование произведения.

Article Sidebar

Main Article Content

Аннотация

Ключевые слова:

Article Details

Библиографические ссылки

Наиболее читаемые статьи этого автора (авторов)