Анализ эффективности субсловных токенизаторов в малоресурсной лингвистической среде: опыт реализации на таджикском языке

Main Article Content

Муллошараф Курбонович Арабов
Светлана Сергеевна Хайбуллина

Аннотация

Рассмотрены современные подходы к субсловной токенизации текстов применительно к малоресурсному таджикскому языку, характеризуемому сложной морфологической структурой и высокой вариативностью словоформ. В ходе исследования был сформирован и предварительно обработан масштабный разнородный корпус, включающий 99 книг и 134497 текстовых статей различных жанров и тематик, общий объем которого превышает 33 млн токенов. Корпус был очищен от шумов, нормализован и использован в качестве основы для обучения и последующего тестирования субсловных моделей.


На базе названного корпуса были обучены и проанализированы пять моделей токенизации, реализующих алгоритмы BPE, WordPiece и Unigram с использованием библиотек Hugging Face Tokenizers и SentencePiece. Сравнительная оценка проведена по ряду ключевых показателей, включая долю неизвестных слов (OOV), степень сжатия текстового представления, скорость токенизации, а также характеристики распределения n-грамм, позволяющие оценить способность моделей отражать морфологическую и структурную организацию языка. Результаты экспериментов позволили выявить сильные и слабые стороны различных подходов к субсловной сегментации и определить наиболее эффективные стратегии токенизации в условиях морфологической сложности
таджикского языка. Полученные выводы могут быть использованы при разработке языковых моделей и прикладных NLP-инструментов для таджикского и других малоресурсных языков, способствуя расширению их присутствия в цифровой среде.

Article Details

Как цитировать
Арабов, М. К., и С. С. Хайбуллина. «Анализ эффективности субсловных токенизаторов в малоресурсной лингвистической среде: опыт реализации на таджикском языке». Электронные библиотеки, т. 29, вып. 2, апрель 2026 г., сс. 546-64, doi:10.26907/1562-5419-2026-29-2-546-564.

Библиографические ссылки

1. Ataman D., Aziz W., Federico M. Neural Machine Translation by Minimising the Lexicon Gap with Subword Units // Proc. of the 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL). Valletta, Malta, 2017. P. 432–443.
2. Vasiliev V.O., Petrov A.A. Problemy obrabotki maloizvestnykh yazykov v sovremennykh NLP sistemakh [Problems of Processing Low-Resource Languages in Modern NLP Systems] // Zhurnal vychislitel'noi lingvistiki i intellektual'nykh tekhnologii. 2021. No. 2(25). P. 45–58.
3. Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units // Proc. of the 54th Annual Meeting of the Association for Computational Linguistics (ACL). Berlin, Germany, 2016. Vol. 1. P. 1715–1725.
4. Kudo T. Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates: preprint arXiv:1804.10959 [cs.CL]. 2018. 10 p. URL: https://arxiv.org/abs/1804.10959 (accessed: 06.04.2025).
5. Kudo T., Richardson J. SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing // Proc. of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (EMNLP). Brussels, Belgium, 2018. P. 66–71.
6. Arabov M.K., Sedykh V.V. Sravnitel'nyi analiz metodov modelirovaniya semanticheskikh predstavlenii slov v usloviyakh ogranichennykh yazykovykh resursov: sluchai tadzhikskogo yazyka [Comparative Analysis of Methods for Modeling Semantic Representations of Words in Low-Resource Settings: The Case of Tajik Language] // Nauchno-tekhnicheskii vestnik Povolzh'ya. 2025. No. 6. P. 196–198.
7. Arabov M.K., Makhmadaliev Kh.S., Khabibullozoda K.Kh. Creating a multiformat text corpus for the Tajik language to train modern language models // Science and Innovation. Series of Geological and Technical Sciences. 2025. No. 2. P. 131–136.
8. Devlin J., Chang M. W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proc. of NAACL-HLT. Minneapolis, USA, 2019. P. 4171–4186.
9. Gage P. A New Algorithm for Data Compression // C Users Journal. 1994. Vol. 12, No. 2. P. 23–38.
10. khovar.tj – News Portal of the Republic of Tajikistan. URL: https://www.khovar.tj (accessed: 06.04.2025).
11. Asia Plus – Tajik Information Service. URL: https://asiaplustj.info (accessed: 06.04.2025).
12. Ovoz i Tojik – Independent Online Media. URL: https://ovozitojik.tj (accessed: 06.04.2025).
13. Farazh – Online Newspaper of Dushanbe. URL: https://farazh.tj (accessed: 06.04.2025).
14. Bartenev O.O. Otsenka effektivnosti metodov tokenizatsii teksta [Evaluating the Efficiency of Text Tokenization Methods] // Vestnik MEI. 2023. No. 6. P. 15–28.
15. Bostrom A., Durrett G. Comparative Analysis of BPE and Unigram Tokenization in RoBERTa Models. Research Report. 2024. URL: https://iris.ru.is/ws/files/240198035/Language_Representation_Models_for_Low_and_Medium_Resource_Languages.pdf (accessed: 10.12.2025).
16. Comparative Analysis of Subword Tokenization Approaches for Indian Languages // Emergent Mind. 2025. URL: https://www.emergentmind.com/articles/2505.16868 (accessed: 10.12.2025).
17. Mikaberidze B., Nadareishvili T., Abashidze M. A Comparison of Different Tokenization Methods for the Georgian Language // Proc. of ICNLSP 2024. 2024. P. 199–208.
18. Park D., Mehta S., Kudo T. Effects of Subword Segmentation on Multilingual Language Models // Proc. of EMNLP. 2023. P. 3504–3518.
19. Arabov M.K. Tajik Language Tokenizers (v1.1). URL: https://huggingface.co/ArabovMK/tajik-tokenizers-v1 (accessed: 06.04.2025).