Повышение устойчивости классификации коротких текстов к стохастическому шуму на основе плотностной очистки обучающих выборок

Main Article Content

Басар Бауржанович Баишев
Андрей Петрович Халов

Аннотация

Рассмотрена задача классификации коротких текстовых заявок в условиях значительного дисбаланса классов и зашумленности реальных потоков обращений. Показана ограниченная эффективность методов синтетического расширения выборки при работе с зашумленной разметкой. Предложен гибридный метод, сочетающий предварительную плотностную очистку данных и многоуровневое ансамблирование моделей. Применение алгоритма плотностной кластеризации позволило исключить 16.5% информационного шума от общего объема выборки. Финальная модель представлена двухуровневой архитектурой и оптимизирована с помощью байесовского поиска гиперпараметров. На отложенной тестовой выборке достигнуто значение метрики R@3, равное 97.4%. Предложенный метод позволяет автоматизировать процесс распределения заявок, существенно снижая нагрузку на операторов и сокращая время диспетчеризации обращений.

Article Details

Как цитировать
Баишев, Б. Б., и А. П. Халов. «Повышение устойчивости классификации коротких текстов к стохастическому шуму на основе плотностной очистки обучающих выборок». Электронные библиотеки, т. 29, вып. 3, июнь 2026 г., сс. 681-98, doi:10.26907/1562-5419-2026-29-3-681-698.

Библиографические ссылки

1. Zhang Y. et al. Deep Long-Tailed Learning: A Survey // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2023. Vol. 45, No. 3. P. 3079–3099. https://doi.org/10.1109/TPAMI.2021.3114116
2. Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. SMOTE: synthetic minority over-sampling technique // Journal of Artificial Intelligence Research. 2002. Vol. 16. P. 321–357. https://doi.org/10.1613/jair.953
3. Zha D. et al. Data-centric Artificial Intelligence: A Survey // ACM Computing Surveys. 2025. Vol. 57, No. 5. Article 129.https://doi.org/10.1145/3711118
4. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval // Information Processing & Management. 1988. Vol. 24, No. 5. P. 513–523. https://doi.org/10.1016/0306-4573(88)90021-0
5. Batiuk T., Dosyn D. Intellectual analysis of textual data in social networks using BERT and XGBOOST // Vìsnik Nacìonalʹnogo Unìversitetu Lʹvìvsʹka Polìtehnìka Serìâ Ìnformacìjnì Sistemi Ta Merežì. 2025. Vol. 17. P. 44–60. https://doi.org/10.23939/sisn2025.17.044
6. Parmar M., Tiwari A. Enhancing text classification performance using stacking ensemble method with TF-IDF feature extraction // Proceedings of the 5th International Conference on Mobile Computing and Sustainable Informatics (ICMCSI). Kathmandu, Nepal. 2024. P. 166–174. https://doi.org/10.1109/ICMCSI61480.2024.10493890
7. Zemp M. Text classification of service desk tickets. Master's thesis. Winterthur, Zurich University of Applied Sciences. 2021. https://www.zhaw.ch/storage/shared/upload/MAS21_Ticket_Classification_Zemp.pdf
8. Akhbardeh F., Alm C.O., Zampieri M., Desell T. Handling extreme class imbalance in technical logbook datasets // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP). Online. 2021. P. 4034–4045. https://doi.org/10.18653/v1/2021.acl-long.312
9. Padurariu C., Breaban M.E. Dealing with data imbalance in text classification // Procedia Computer Science. 2019. Vol. 159. P. 736–745. https://doi.org/10.1016/j.procs.2019.09.229
10. Asyaky M.S., Mandala R. Improving the performance of HDBSCAN on short text clustering by using word embedding and UMAP // 2021 8th International Conference on Advanced Informatics: Concepts, Theory and Applications (ICAICTA). Bandung, Indonesia. 2021. P. 1–6. https://doi.org/10.1109/ICAICTA53211.2021.9640285
11. McInnes L., Healy J., Astels S. hdbscan: Hierarchical density based clustering // Journal of Open Source Software. 2017. Vol. 2, No. 11. P. 205. https://doi.org/10.21105/joss.00205
12. Khalov A.P., Ataeva O.M. Automatic and semi-automatic methods for constructing a domain knowledge graph and ontology expansion // Russian Digital Libraries Journal. 2025. Vol. 28, No. 6. P. 1481–1519 (in Russian). https://doi.org/10.26907/1562-5419-2025-28-6-1481-1519
13. Wolpert D.H. Stacked generalization // Neural Networks. 1992. Vol. 5, No. 2. P. 241–259. https://doi.org/10.1016/S0893-6080(05)80023-1
14. Charikar M.S. Similarity estimation techniques from rounding algorithms // Proceedings of the thirtieth annual ACM symposium on Theory of computing (STOC). 2002. P. 380–388. https://doi.org/10.1145/509907.509965
15. Micci-Barreca D. A preprocessing scheme for high-cardinality categorical attributes in classification and prediction problems // SIGKDD Explorations Newsletter. 2001. Vol. 3, No. 1. P. 27–32. https://doi.org/10.1145/507533.507538
16. Chen T., Guestrin C. XGBoost: A scalable tree boosting system // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). San Francisco, USA. 2016. P. 785–794. https://doi.org/10.1145/2939672.2939785
17. Akiba T., Sano S., Yanase T., Ohta T., Koyama M. Optuna: A next-generation hyperparameter optimization framework // Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD). Anchorage, USA. 2019. P. 2623–2631. https://doi.org/10.1145/3292500.3330701