Применение методов компьютерного зрения к распознаванию старотатарского текста

Main Article Content

Искандер Айратович Валишин

Аннотация

Разработан инструмент, распознающий строки, слова и арабские символы с отсканированного изображения. Рассмотрены возможности и перспективы применения инструмента в исследовательской деятельности. Приведены результаты экспериментов по проверке работоспособности инструмента на примере старотатарских оцифрованных произведений.

Article Details

Библиографические ссылки

1. Старовойтов В.В. О цифровой реставрации исторических текстовых документов // Системный анализ и прикладная информатика. 2015. №1. URL: https://cyberleninka.ru/article/n/o-tsifrovoy-restavratsii-istoricheskih-tekstovyh-dokumentov (дата обращения: 24.04.2024).
2. Announcing Tesseract OCR – The official Google Code blog. URL: https://googlecode.blogspot.com/2006/08/announcing-tesseract-ocr.html (дата обращения: 24.04.2024).
3. Rice S., Jenkins F., Nartker T. The Fourth Annual Test of OCR Accuracy. 2012. URL: https://www.researchgate.net/publication/247886491_The_Fourth_Annual_Test_of_OCR_Accuracy (дата обращения: 24.04.2024).
4. Андрианов А.И. Сравнение OCR-систем на основе точности анализа изображения // Бизнес-информатика. 2009. №4. URL: https://cyberleninka.ru/article/n/sravnenie-ocr-sistem-na-osnove-tochnosti-analiza-izobrazheniya (дата обращения: 01.05.2024)
5. Нестеров А.С. Анализ рынка современных информационных систем оптического распознавания символов (OCR) // Вопросы науки и образования. 2020. №23 (107). URL: https://cyberleninka.ru/article/n/analiz-rynka-sovremennyh-informatsionnyh-sistem-opticheskogo-raspoznavaniya-simvolov-ocr (дата обращения: 01.05.2024).
6. Pechwitz M., Maddouri S.S., Märgner V., Ellouze N., Amiri H. IFN/ENIT-database of handwritten Arabic words // Proc. of CIFED, Citeseer, 2002. P. 127–136.
7. Lawgali A., Angelova M., Bouridane A. HACDB: Handwritten Arabic characters da-tabase for automatic character recognition // European Workshop on Visual Information Processing (EUVIP), 2013. P. 255–259.
8. Altwaijry N., Al-Turaiki I. Arabic handwriting recognition system using convolutional neural network // Neural Comput. Appl. 2021. Vol. 33, No. 7. P. 2249–2261.
9. Balaha H.M., Ali H.A., Saraya M., Badawy M. A new Arabic handwritten character recognition deep learning system (AHCR-DLS) // Neural Comput. Appl. 2021. Vol. 33, no. 11. P. 6325–6367.
10. Nayef B.H., Abdullah S.N.H.S., Sulaiman R., Alyasseri Z.A.A. Optimized leaky ReLU for handwritten Arabic character recognition using convolution neural networks// Multimed. Tools Appl. 2022. Vol. 81, No. 2. P. 2065–2094.
11. Elkhayati M., Elkettani Y. UnCNN: A New Directed CNN Model for Isolated Arabic Handwritten Characters Recognition // Arab J. Sci. Eng. 2022. Vol. 47, No. 8. P. 10667–10688.
12. Balaha H.M. HMBD: Arabic Handwritten Characters Dataset. URL: https://github.com/HossamBalaha/HMBD-v1 (дата обращения: 09.05.2024).
13. Balaha H.M., Ali H.A., Saraya M. A new Arabic handwritten character recognition deep learning system (AHCR-DLS) // Neural Comput. Appl. 2021. Vol. 33. P. 6325–6367.
14. Zou Z., Chen K., Shi Z., Guo Y., Ye J. Object Detection in 20 Years: A Survey // Proceedings of the IEEE. 2023. Vol. 111, No. 3. P. 257–276.
15. Закирьянов И.И., Хаялеева И.З., Валишин И.А., Курито Е.Д., Фасхутдинов А.Н. Инструмент для распознавания языка жестов из видеопотока в режиме реального времени // Электронные библиотеки. 2023. Т. 26, № 6. URL: https://rdl-journal.ru/article/view/804/876 (дата обращения: 01.05.2024).
16. Mulyana D., Rowis M. Optimization of Text Mining Detection of Tajweed Reading Laws Using the Yolov8 Method on the Qur’an // QALAMUNA: Jurnal Pendidikan, Sosial, Dan Agama. 2022. Vol. 14, No. 2. P. 1089–1110.
17. Badr Al-Badr., Sabri A.M. Survey and bibliography of Arabic optical text recognition // Signal Processing. 1995. Vol. 41, Issue 1. P. 49–77.
18. Turki H., Elleuch M., Kherallah M., Damak A. Arabic-Latin Scene Text Detection based on YOLO Models // International Conference on Innovations in Intelligent Systems and Applications (INISTA), Hammamet, Tunisia, 2023. P. 1–6.
19. Rahal N., Tounsi M., Hussain A., Alimi A.M. Deep Sparse Auto-Encoder Features Learning for Arabic Text Recognition // IEEE Access. 2021. Vol. 9. P. 18569–18584.
20. Султанов М. Татар ханлары (تاتار خانلاري) // Типография братьев Каримвых. 1911. URL: https://darulkutub.com/uploads/books/820d9f6dcf1e868ee899d47e487b06189c2b816a.pdf (дата обращения: 01.05.2024).
21. Камал Ш. Акчарлаклар (آقچارلاقلر) // "Вакыт" матбагасы. 1915. URL: https://miras.info/projects/mirasxane/books/425-akcharlaklar-.html (дата обращения: 01.05.2024).
22. Аек бул (آيق بول) // Типо-литография Императорского университета. 1907. URL: https://darul-kutub.com/uploads/books/c3032b3c9136803dc0e38db69cd15541
fb24064b.pdf (дата обращения: 01.05.2024).