Анализ эффективности субсловных токенизаторов в малоресурсной лингвистической среде: опыт реализации на таджикском языке

Муллошараф Курбонович Арабов; Светлана Сергеевна Хайбуллина

doi:10.26907/1562-5419-2026-29-2-546-564

PDF

Опубликован: 20.04.2026

УДК 004.8

DOI: https://doi.org/10.26907/1562-5419-2026-29-2-546-564

Выпуск

Том 29 № 2 (2026)

Муллошараф Курбонович Арабов

Казанский (Приволжский) федеральный университет, г. Казань, Россия

https://orcid.org/0000-0003-2525-1183

Светлана Сергеевна Хайбуллина

Казанский (Приволжский) федеральный университет, г. Казань, Россия

https://orcid.org/0009-0003-8818-2370

Аннотация

Рассмотрены современные подходы к субсловной токенизации текстов применительно к малоресурсному таджикскому языку, характеризуемому сложной морфологической структурой и высокой вариативностью словоформ. В ходе исследования был сформирован и предварительно обработан масштабный разнородный корпус, включающий 99 книг и 134497 текстовых статей различных жанров и тематик, общий объем которого превышает 33 млн токенов. Корпус был очищен от шумов, нормализован и использован в качестве основы для обучения и последующего тестирования субсловных моделей.

На базе названного корпуса были обучены и проанализированы пять моделей токенизации, реализующих алгоритмы BPE, WordPiece и Unigram с использованием библиотек Hugging Face Tokenizers и SentencePiece. Сравнительная оценка проведена по ряду ключевых показателей, включая долю неизвестных слов (OOV), степень сжатия текстового представления, скорость токенизации, а также характеристики распределения n-грамм, позволяющие оценить способность моделей отражать морфологическую и структурную организацию языка. Результаты экспериментов позволили выявить сильные и слабые стороны различных подходов к субсловной сегментации и определить наиболее эффективные стратегии токенизации в условиях морфологической сложности
таджикского языка. Полученные выводы могут быть использованы при разработке языковых моделей и прикладных NLP-инструментов для таджикского и других малоресурсных языков, способствуя расширению их присутствия в цифровой среде.

Ключевые слова:

таджикский язык, субсловная токенизация, малоресурсные языки, BPE, Word-Piece, Unigram, Hugging Face Tokenizers, SentencePiece, корпусная лингвистика, обработка естественного языка (NLP).

Как цитировать

Арабов, М. К., и С. С. Хайбуллина. «Анализ эффективности субсловных токенизаторов в малоресурсной лингвистической среде: опыт реализации на таджикском языке». Электронные библиотеки, т. 29, вып. 2, апрель 2026 г., сс. 546-64, doi:10.26907/1562-5419-2026-29-2-546-564.

Библиографические ссылки

1. Ataman D., Aziz W., Federico M. Neural Machine Translation by Minimising the Lexicon Gap with Subword Units // Proc. of the 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL). Valletta, Malta, 2017. P. 432–443.
2. Vasiliev V.O., Petrov A.A. Problemy obrabotki maloizvestnykh yazykov v sovremennykh NLP sistemakh [Problems of Processing Low-Resource Languages in Modern NLP Systems] // Zhurnal vychislitel'noi lingvistiki i intellektual'nykh tekhnologii. 2021. No. 2(25). P. 45–58.
3. Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units // Proc. of the 54th Annual Meeting of the Association for Computational Linguistics (ACL). Berlin, Germany, 2016. Vol. 1. P. 1715–1725.
4. Kudo T. Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates: preprint arXiv:1804.10959 [cs.CL]. 2018. 10 p. URL: https://arxiv.org/abs/1804.10959 (accessed: 06.04.2025).
5. Kudo T., Richardson J. SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing // Proc. of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (EMNLP). Brussels, Belgium, 2018. P. 66–71.
6. Arabov M.K., Sedykh V.V. Sravnitel'nyi analiz metodov modelirovaniya semanticheskikh predstavlenii slov v usloviyakh ogranichennykh yazykovykh resursov: sluchai tadzhikskogo yazyka [Comparative Analysis of Methods for Modeling Semantic Representations of Words in Low-Resource Settings: The Case of Tajik Language] // Nauchno-tekhnicheskii vestnik Povolzh'ya. 2025. No. 6. P. 196–198.
7. Arabov M.K., Makhmadaliev Kh.S., Khabibullozoda K.Kh. Creating a multiformat text corpus for the Tajik language to train modern language models // Science and Innovation. Series of Geological and Technical Sciences. 2025. No. 2. P. 131–136.
8. Devlin J., Chang M. W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proc. of NAACL-HLT. Minneapolis, USA, 2019. P. 4171–4186.
9. Gage P. A New Algorithm for Data Compression // C Users Journal. 1994. Vol. 12, No. 2. P. 23–38.
10. khovar.tj – News Portal of the Republic of Tajikistan. URL: https://www.khovar.tj (accessed: 06.04.2025).
11. Asia Plus – Tajik Information Service. URL: https://asiaplustj.info (accessed: 06.04.2025).
12. Ovoz i Tojik – Independent Online Media. URL: https://ovozitojik.tj (accessed: 06.04.2025).
13. Farazh – Online Newspaper of Dushanbe. URL: https://farazh.tj (accessed: 06.04.2025).
14. Bartenev O.O. Otsenka effektivnosti metodov tokenizatsii teksta [Evaluating the Efficiency of Text Tokenization Methods] // Vestnik MEI. 2023. No. 6. P. 15–28.
15. Bostrom A., Durrett G. Comparative Analysis of BPE and Unigram Tokenization in RoBERTa Models. Research Report. 2024. URL: https://iris.ru.is/ws/files/240198035/Language_Representation_Models_for_Low_and_Medium_Resource_Languages.pdf (accessed: 10.12.2025).
16. Comparative Analysis of Subword Tokenization Approaches for Indian Languages // Emergent Mind. 2025. URL: https://www.emergentmind.com/articles/2505.16868 (accessed: 10.12.2025).
17. Mikaberidze B., Nadareishvili T., Abashidze M. A Comparison of Different Tokenization Methods for the Georgian Language // Proc. of ICNLSP 2024. 2024. P. 199–208.
18. Park D., Mehta S., Kudo T. Effects of Subword Segmentation on Multilingual Language Models // Proc. of EMNLP. 2023. P. 3504–3518.
19. Arabov M.K. Tajik Language Tokenizers (v1.1). URL: https://huggingface.co/ArabovMK/tajik-tokenizers-v1 (accessed: 06.04.2025).

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Представляя статьи для публикации в журнале «Электронные библиотеки», авторы автоматически дают согласие предоставить ограниченную лицензию на использование материалов Казанскому (Приволжскому) федеральному университету (КФУ) (разумеется, лишь в том случае, если статья будет принята к публикации). Это означает, что КФУ имеет право опубликовать статью в ближайшем выпуске журнала (на веб-сайте или в печатной форме), а также переиздавать эту статью на архивных компакт-дисках журнала или включить в ту или иную информационную систему или базу данных, производимую КФУ.

Все авторские материалы размещены в журнале «Электронные библиотеки» с ведома авторов. В случае, если у кого-либо из авторов есть возражения против публикации его материалов на данном сайте, материал может быть снят при условии уведомления редакции журнала в письменной форме.

Документы, изданные в журнале «Электронные библиотеки», защищены законодательством об авторских правах, и все авторские права сохраняются за авторами. Авторы самостоятельно следят за соблюдением своих прав на воспроизводство или перевод их работ, опубликованных в журнале. Если материал, опубликованный в журнале «Электронные библиотеки», с разрешения автора переиздается другим издателем или переводится на другой язык, то ссылка на оригинальную публикацию обязательна.

Передавая статьи для опубликования в журнале «Электронные библиотеки», авторы должны принимать в расчет, что публикации в интернете, с одной стороны, предоставляют уникальные возможности доступа к их материалам, но, с другой, являются новой формой обмена информацией в глобальном информационном обществе, где авторы и издатели пока не всегда обеспечены защитой от неправомочного копирования или иного использования материалов, защищенных авторским правом.

При использовании материалов из журнала обязательна ссылка на URL: http://rdl-journal.ru. Любые изменения, дополнения или редактирования авторского текста недопустимы. Копирование отдельных фрагментов статей из журнала разрешается для научных исследований, персонального использования, коммерческого использования до тех пор, пока есть ссылка на оригинальную статью.

Запросы на право переиздания или использования любых материалов, опубликованных в журнале «Электронные библиотеки», следует направлять главному редактору Елизарову А.М. по адресу: amelizarov@gmail.com

Издатели журнала «Электронные библиотеки» не несут ответственности за точки зрения, излагаемые в публикуемых авторских статьях.

Предлагаем авторам статей загрузить с этой страницы, подписать и выслать в адрес издателя журнала по электронной почте скан Авторского договора о передаче неисключительных прав на использование произведения.

Article Sidebar

Main Article Content

Аннотация

Ключевые слова:

Article Details

Библиографические ссылки

Наиболее читаемые статьи этого автора (авторов)