О модели поиска синонимов

Main Article Content

Ольга Муратовна Атаева
Владимир Алексеевич Серебряков
Наталия Павловна Тучкова

Аннотация

Рассмотрена задача нахождения наиболее релевантных документов в результате расширенного и уточненного запроса. Для ее решения предложены модель поиска и механизм предварительной обработки текста, а также совместное использование поисковой системы и модели, построенной на основе индекса с помощью алгоритмов word2vec для генерации расширенного запроса с синонимами и уточнения результатов поиска на основе подбора похожих документов в цифровой семантической библиотеке. В работе исследуется построение векторного представления документов применительно к массиву данных цифровой семантической библиотеки LibMeta. Решалась задача обогащения пользовательских запросов синонимами. При построении модели поиска совместно с алгоритмами word2vec использован подход «сначала индексация, затем обучение», что позволяет получить более точные результаты поиска. Обучение модели проводилось на базе контента библиотеки для предметной области «Математика». Приведены примеры расширенного запроса с использованием синонимов.

Article Details

Библиографические ссылки

1. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, New York, 1999. 518 p.
2. Salton G. Introduction to Modern Information Retrieval. McGraw-Hill, 1983, 513 p.
3. Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003. V. 3. P. 993–1022.
4. Furnas G.W., Landauer T.K., Gomez L.M., Dumais S.T. The vocabulary problem in human-system communication // Commun. ACM. 1987. V. 30 No. 11 P. 964–971.
5. Biswas G., Bezdek J., Oakman R.L. A knowledge-based approach to online document retrieval system design. In Proc. ACM SIGART Int. Symp. Methodol. Intell. Syst. 1986. P. 112 120.
6. Мак-Каллок У.С., Питтс В. Логическое исчисление идей, относящихся к нервной активности // Автоматы. Под ред. К. Э. Шеннона и Дж. Маккарти. М.: Изд-во иностр. лит., 1956. С. 363–384 (Перевод английской статьи 1943 г.).
7. Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных. URL: http://www.machinelearning.ru/ (доступно 26.10.2021)
8. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2000. 384 с.
9. Атаева О.М., Серебряков В.А. Онтология цифровой семантической библиотеки LibMeta // Информатика и её применения. 2018. Т. 12. № 1. С. 2–10.
10. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // Proceedings of Workshop at ICLR, 2013.
11. Mikolov T., Yih W.T., Zweig C. Linguistic Regularities in Continuous Space Word Representations // Proceedings of NAACL HLT, 2013.
12. Le Q., Mikolov T. Distributed Representations of Sentences and Document // International Conference on Machine Learning. 2014. P. 1188–1196.
13. Ataeva O.M., Sererbryakov V.A., Tuchkova N.P. Using Applied Ontology to Saturate Semantic Relations // Lobachevskii Journal of Mathematics. 2021. V. 42. No. 8. P. 1776–1785.
14. Voorhees E.M. Query expansion using lexical-semantic relations. 17th Annu. Int. ACM SIGIR Conf. Res. Develop. Inf. Retr., Dublin, Ireland, 1994.
15. Buckley C., Salton G., Allan J., Singhal A. Automatic query expansion using SMART: TREC 3, presented at the 3rd Text Retr. Conf. (TREC), 1995.
16. Efthimiadis E.N. Query expansion // Annu. Rev. Inf. Sci. Technol. 1996. V. 31. No. 5. P. 121–187.


Наиболее читаемые статьи этого автора (авторов)

1 2 > >>