Атрибуция архивных рукописных писем с использованием сиамских нейронных сетей

Main Article Content

Наталия Михайловна Пронина

Аннотация

Предложен метод автоматической атрибуции архивных рукописных писем на основе сиамской нейронной сети, решающий ключевую проблему цифровой гуманитаристики – установление авторства исторических документов. Актуальность исследования обусловлена массовой оцифровкой архивов XVII–XIX вв., атрибуция которых затруднена из-за неполных исходных сведений об авторах.


Метод адаптирован к работе с реальным корпусом текстов и учитывает характерные для архивов проблемы: некачественные оцифровки, значительную вариативность почерка и выраженный дисбаланс классов (от 1 до 50 и более образцов на автора). Применение сиамской архитектуры позволяет получать дискриминативные векторные представления, эмбеддинги, на основе которых выполняется не только классификация документов известных авторов, но и эффективно выявляются рукописи, не принадлежащие ни одному из них. Это сужает круг кандидатов для последующей экспертной проверки.


Представлен алгоритм предобработки данных и проведено сравнительное исследование двух подходов к анализу текста: на уровне фрагментов изображения (300 × 300 пикселей) и уровне отдельных строк. Разработанный инструмент предлагает архивным работникам и филологам эффективное решение для предварительной сортировки и атрибуции крупных массивов рукописных документов.

Article Details

Как цитировать
Пронина, Н. М. «Атрибуция архивных рукописных писем с использованием сиамских нейронных сетей ». Электронные библиотеки, т. 28, вып. 6, декабрь 2025 г., сс. 1454-80, doi:10.26907/1562-5419-2025-28-6-1454-1480.

Библиографические ссылки

1. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 770–778. https://doi.org/10.1109/CVPR.2016.90.
2. Kiselev V., Kropotov D., Pronina N. Handwritten documents author verification based on the siamese network // The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2024. Vol. XLVIII-2/W5-2024. P. 73–78. https://doi.org/10.5194/isprs-archives-XLVIII-2-W5-2024-73-2024
3. Bromley J., Bentz J., Bottou L., Guyon I., Lecun Y., Moore C., Sackinger E., Shah R. Signature verification using a "siamese" time delay neural network // International Journal of Pattern Recognition and Artificial Intelligence. 1993. Vol. 7, No. 4. P. 669–688. https://doi.org/10.1142/S0218001493000339
4. Solomon E., Woubie A., Emiru E.S. Deep learning-based face recognition method using siamese network. 2024. https://doi.org/10.48550/arXiv.2312.14001
5. Yin W., Schütze H. Convolutional neural network for paraphrase identification // Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2015. P. 901–911. https://doi.org/10.3115/v1/N15-1091
6. Koch G., Zemel R., Salakhutdinov R. et al. Siamese neural networks for one-shot image recognition // ICML Deep Learning Workshop. 2015. Vol. 2, No. 1. P. 1–30.
7. Chopra S., Hadsell R., LeCun Y. Learning a similarity metric discriminatively, with application to face verification // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05). 2005. Vol. 1. P. 539–546. https://doi.org/10.1109/CVPR.2005.202
8. Hadsell R., Chopra S., LeCun Y. Dimensionality reduction by learning an invariant mapping // 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06). 2006. Vol. 1. P. 1735–1742. https://doi.org/10.1109/CVPR.2006.100
9. Schroff F., Kalenichenko D., Philbin J. Facenet: A unified embedding for face recognition and clustering // 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2015. P. 815–823. https://doi.org/10.1109/CVPR.2015.7298682
10. Souibgui M.A., Biswas S., Jemni S.K., Kessentini Y., Forn´es A., Llado´s J., Pal U. Docentr: An end-to-end document image enhancement transformer. 2022. P. 1699–1705. https://doi.org/10.1109/ICPR56361.2022.9956101.
11. Wood D.E., Salzberg S.L. Kraken: ultrafast metagenomic sequence classification using exact alignments // Genome Biology. 2014. Vol. 15, No. 1. P. R46. https://doi.org/10.1186/gb-2014-15-3-r46
12. Shu L., Xu H., Liu B. Doc: Deep open classification of text documents. 2017. P. 2911–2916. https://doi.org/10.18653/v1/D17-1314.
13. Kiselev V., Pronina N. Machine attribution of handwriting in solving source studies problems (based on the correspondence of G.N. Potanin) // Imagology and Comparative Studies. 2025. No. 24.