Автоматические и полуавтоматические методы построения графа знаний предметной области и расширения онтологии
Main Article Content
Аннотация
Рассмотрен цикл построения графа знаний и расширения онтологии для специальной предметной области, описывающей процесс управления потоками данных в службах информационной поддержки. Предложена методика формирования корпуса данных для наполнения онтологии с автоматической псевдоразметкой, включающей специальные категории для фиксации ранее не представленных классов и отношений. Обучена специализированная модель извлечения именованных сущностей на корпусе данных объемом 3 млн токенов с 92 метками. Результаты были использованы для интеграции извлеченных фактов, что увеличило граф знаний до 0.98 млн триплетов, при этом коэффициент расширения графа (отношение общего числа фактов к явным триплетам) увеличился с 2.65 до 3.52 при сохранении логической согласованности. Наборы токенов с одинаковыми метками были преобразованы в устойчивые семантические множества, что позволило полуавтоматически расширить онтологию. В онтологию добавлены 12 новых классов, которые были извлечены из неструктурированных текстовых данных. Показан прикладной пример запросов и дальнейшей аналитики.
Ключевые слова:
Article Details
Библиографические ссылки
2. IT Service Management Ontology (ITSMO). Canonical resolver; catalog entry in LOV “IT Service Management Ontology (itsmo)”. https://w3id.org/itsmo; ontology.it; lov.linkeddata.es (Accessed: 08 August 2025).
3. Khalov A., Ataeva O. Automating Ontology Mapping in IT Service Management: A DOLCE and ITSMO Integration // Data Science Journal. 2025. Vol. 24. Р. 23. https://doi.org/10.5334/dsj-2025-023
4. Gruber T.R. A translation approach to portable ontology specifications // Knowledge Acquisition. 1993. Vol. 5, No. 2. Р. 199–220. https://doi.org/10.1006/knac.1993.1008
5. Gruber T.R. Toward principles for the design of ontologies used for knowledge sharing // International Journal of Human-Computer Studies. 1995. Vol. 43, No. 5–6. Р. 907–928. https://doi.org/10.1006/ijhc.1995.1081
6. Smith B. Ontology (Science) // Formal Ontology in Information Systems, IOS Press, 2008. Р. 21–35. https://doi.org/10.1038/npre.2008.2027.2
7. Studer R., Benjamins V.R., Fensel D. Knowledge Engineering: Principles and Methods // Data & Knowledge Engineering. 1998. Vol. 25, No. 1–2. Р. 161–197. https://doi.org/10.1016/S0169-023X(97)00056-6
8. Hogan A., Blomqvist E., Cochez M. et al. Knowledge Graphs. Morgan & Claypool Publishers, 2021. 257 p.
9. Barrasa J., Webber J. Building Knowledge Graphs: A Practitioner's Guide. O'Reilly Media, 2023. 250 p.
10. El Yamami A. et al. An ontological representation of ITIL framework service level management process // Proceedings of the 3rd International Conference on Signals, Distributed Systems and Artificial Intelligence (SDSAI 2018). 2019. Springer.
11. Valiente M.-C., Vicente-Chicote C., Rodriguez D. An Ontology-Based and Model-Driven Approach for Designing IT Service Management Systems // Int. J. of Service Science, Management, Engineering, and Technology. 2011. Vol. 2 (2). P. 65–81.
12. Miwa M., Bansal M. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016. Р. 1105–1116. Berlin, Germany: Association for Computational Linguistics. https://doi.org/10.18653/v1/P16-1105
13. Xu J., Zhang Z., Friedman T., Liang Y., Van den Broeck G. A Semantic Loss Function for Deep Learning with Symbolic Knowledge // Proceedings of the 35th International Conference on Machine Learning (ICML). PMLR, 2018. Vol. 80. Р. 5502–5511. URL: https://proceedings.mlr.press/v80/xu18h.html
14. Sun K., Zhang R., Mensah S., Mao Y., Liu X. Learning Implicit and Explicit Multi-task Interactions for Information Extraction // ACM Transactions on Information Systems. 2023. Vol. 41, No. 2. Р. 1–29. https://doi.org/10.1145/3533020
15. Giunchiglia E., Lukasiewicz T. Coherent Hierarchical Multi-label Classification Networks // Advances in Neural Information Processing Systems 33 (NeurIPS 2020). 2020. URL: https://proceedings.neurips.cc/paper/2020/file/ 6dd4e10e3296fa63738371ec0d5df818-Paper.pdf
16. Yu J., Bohnet B., Poesio M. Named Entity Recognition as Dependency Parsing // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL). 2020. Р. 6470–6476. https://doi.org/10.18653/v1/2020.acl-main.577
17. Lu Y., Liu Q., Dai D., Xiao X., Lin H., Han X., Sun L., Wu H. Unified Structure Generation for Universal Information Extraction // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022. Р. 5755–5772. https://doi.org/10.18653/v1/2022.acl-long.395
18. Gururangan S., Marasović A., Swayamdipta S., Lo K., Beltagy I., Downey D., Smith N. A. Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL). 2020. Р. 8342–8360. https://doi.org/10.18653/v1/2020.acl-main.740
19. Brown T.B. et al. Language Models are Few-Shot Learners // Advances in Neural Information Processing Systems. 2020. Vol. 33. URL: https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf
20. Alizadeh M., Kubli M., Samei Z., Dehghani S., Zahedivafa M., Bermeo J.D., Korobeynikova M., Gilardi F. Open-source LLMs for text annotation: a practical guide for model setting and fine-tuning // Journal of Computational Social Science. 2025. Vol. 8. Article 17. https://doi.org/10.1007/s42001-024-00345-9
21. Eiras F. et al. Position: Near to Mid-term Risks and Opportunities of Open-Source Generative AI // Proceedings of the 41st International Conference on Machine Learning (ICML 2024). Proceedings of Machine Learning Research. 2024. Vol. 235. Р. 12348–12370. URL: https://proceedings.mlr.press/v235/eiras24b.html
22. Tjong Kim Sang, E. F., De Meulder F. Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition. In: HLT-NAACL 2003 (CoNLL-2003).
23. Zhang B., May J., Nothman J., Knight K., Ji H. Cross-lingual Name Tagging and Linking for 282 Languages. ACL 2017.
24. Derczynski, L. et al. Results of the WNUT2017 Shared Task on Novel and Emerging Entity Recognition. W-NUT 2017 (ACL Workshop).
25. Brown T.B. et al. Language Models are Few-Shot Learners // Advances in Neural Information Processing Systems. 2020. Vol. 33.
26. Campello R.J.G.B., Moulavi D., Sander J. Hierarchical density estimates for data clustering, visualization, and outlier detection // ACM Transactions on Knowledge Discovery from Data (TKDD). 2015. Vol. 10 (1). P. 5. https://doi.org/10.1145/2733381
27. Vardi Y., Zhang C.-H. A modified Weiszfeld algorithm for the Fermat–Weber location problem // Mathematical Programming. 2001. Vol. 90. Р. 559–566. https://doi.org/10.1007/PL00011435
28. Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. Р. 3982–3992. Hong Kong, China: Association for Computational Linguistics. https://doi.org/10.18653/v1/D19-1410
29. Hugging Face. XLM-RoBERTa (large): specs (24 layers, ~550M params). 2020–2024. URL: https://huggingface.co/transformers/v3.4.0/pretrained_models.html
30. Côté M.-A. et al. TextWorld: A Learning Environment for Text-Based Games // Computer Games (CGW@IJCAI 2018). 2019. Vol. 1017 (CCIS). Р. 41–75. https://doi.org/10.1007/978-3-030-24337-1_3
31. Russell S., Norvig P. Artificial Intelligence: A Modern Approach. 4th ed. Pearson, 2020. Chapter 11: Planning and Acting.
32. Schmidhuber J. Gödel Machines: Self-Referential Universal Problem Solvers Making Provably Optimal Self-Improvements // Artificial General Intelligence. 2007. Р. 199–226. https://doi.org/10.1007/978-3-540-68677-4_7
33. Yin X. et al. Gödel Agent: A Self-Referential Agent Framework for Recursively Self-Improvement // Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL 2025). 2025. Р. 27890–27913. https://aclanthology.org/2025.acl-long.1354/
34. Ataeva O.M., Serebryakov V.A. Ontology of the Digital Semantic Library LibMeta // Informatics and Its Applications. 2018. Vol. 12, No. 1. P. 2–10 (In Russian).

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Представляя статьи для публикации в журнале «Электронные библиотеки», авторы автоматически дают согласие предоставить ограниченную лицензию на использование материалов Казанскому (Приволжскому) федеральному университету (КФУ) (разумеется, лишь в том случае, если статья будет принята к публикации). Это означает, что КФУ имеет право опубликовать статью в ближайшем выпуске журнала (на веб-сайте или в печатной форме), а также переиздавать эту статью на архивных компакт-дисках журнала или включить в ту или иную информационную систему или базу данных, производимую КФУ.
Все авторские материалы размещены в журнале «Электронные библиотеки» с ведома авторов. В случае, если у кого-либо из авторов есть возражения против публикации его материалов на данном сайте, материал может быть снят при условии уведомления редакции журнала в письменной форме.
Документы, изданные в журнале «Электронные библиотеки», защищены законодательством об авторских правах, и все авторские права сохраняются за авторами. Авторы самостоятельно следят за соблюдением своих прав на воспроизводство или перевод их работ, опубликованных в журнале. Если материал, опубликованный в журнале «Электронные библиотеки», с разрешения автора переиздается другим издателем или переводится на другой язык, то ссылка на оригинальную публикацию обязательна.
Передавая статьи для опубликования в журнале «Электронные библиотеки», авторы должны принимать в расчет, что публикации в интернете, с одной стороны, предоставляют уникальные возможности доступа к их материалам, но, с другой, являются новой формой обмена информацией в глобальном информационном обществе, где авторы и издатели пока не всегда обеспечены защитой от неправомочного копирования или иного использования материалов, защищенных авторским правом.
При использовании материалов из журнала обязательна ссылка на URL: http://rdl-journal.ru. Любые изменения, дополнения или редактирования авторского текста недопустимы. Копирование отдельных фрагментов статей из журнала разрешается для научных исследований, персонального использования, коммерческого использования до тех пор, пока есть ссылка на оригинальную статью.
Запросы на право переиздания или использования любых материалов, опубликованных в журнале «Электронные библиотеки», следует направлять главному редактору Елизарову А.М. по адресу: amelizarov@gmail.com
Издатели журнала «Электронные библиотеки» не несут ответственности за точки зрения, излагаемые в публикуемых авторских статьях.
Предлагаем авторам статей загрузить с этой страницы, подписать и выслать в адрес издателя журнала по электронной почте скан Авторского договора о передаче неисключительных прав на использование произведения.