Intelligent search of complex objects in Big Data

Main Article Content

Александр Михайлович Гусенков

Abstract

This article considers approach to intelligent search of complex objects in different types of texts with structural markup which can be used for Big Data processing. We research two types of data entry: relational databases, which use their schemes as structural markup, and full-text scientific documents containing mathematical expressions (formulae). For such full-text documents we suggest additory automated markup to allow formula search. In both cases we use natural language texts, which are semistructured data, as data source for building ontology and conducting search at a later stage. For relational databases those are comments to table and table attribute names; for scientific documents (articles, monographs, etc.) it is a text content of marked up documents.

Article Details

Author Biography

Александр Михайлович Гусенков

Senior lecturer, Institute of Computational Mathematics and Information Technologies of Kazan Federal University. Current scientific interests: knowledge extraction technologies, big data, data mining, parallel computing

References

1. Hopkins B., Evelson B. Expand your digital horizon with Big Data. URL: http://www.asterdata.com/newsletter-images/30-04-2012/resources/forrester_ expand_your_digital_horiz.pdf, 2011.
2. URL: http://nosql-database.org/.
3. URL: https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html.
4. URL: http://hadoop.apache.org/.
5. URL: https://hana.sap.com/abouthana.html.
6. Когаловский М.Р. Методы интеграции данных в информационных системах // Институт проблем рынка РАН, Москва, 2010. URL: http://www.ipr-ras.ru//articles/kogalov10-05.pdf.
7. URL: https://www.w3.org/TR/2004/REC-owl-features-20040210/.
8. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. 384 с.
9. Buneman P. Semistructured data // Proceedings of the Sixteenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Tucson, Arizona, United States, May 11–15, 1997. P. 117–121.
10. Биряльцев Е.В., Гусенков А.М., Косинов Я.Г. Представление структуры реляционных баз данных в формализме онтологий // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2006. Казань: Изд-во «Отечество», 2007. С. 32–37.
11. Биряльцев Е.В., Гусенков А.М. Интеграция реляционных баз данных на основе онтологий. // Ученые записки Казанского государственного университета. Серия Физико-математические науки. 2007. Т. 149, Кн. 2. С. 13–25.
12. Гусенков А., Биряльцев Е., Жибрик О. Интеллектуальный поиск в структурированных массивах информации // LAP LAMBERT Academic Publishing, 2015. 129 с.
13. Гарсиа-Молина Г., Ульман Дж., Уидом Дж. Системы баз данных. Полный курс / Database Systems: The Complete Book // Вильямс, 2003. 1088 с.
14. Буч Г., Рамбо Д., Джекобсон А. Язык UML. Руководство пользователя. Пер. с англ. М.: ДМК, 2000. 432 с.
15. Биряльцев Е.В., Гусенков А.М., Галимов М.Р. Особенности лексико-семантической структуры наименований артефактов реляционных баз данных // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2005. Казань: Изд-во Казанского ун-та, 2006. С. 4–12.
16. Жучков А.В., Арнаутов С.А., Твердохлебов Н.В. Новые технологии для понятийных сетей, создаваемых в рамках МНТП «Вакцины нового поколения и диагностические системы будущего» // Электронные библиотеки, 2003. Т. 6, Вып. 6. URL: http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2003/part6/ ZATGS.
17. Андерсон Дж. Дискретная математика и комбинаторика. Пер. с англ. М.: Изд. дом «Вильямс», 2003. 960 с.
18. Биряльцев Е.В., Гусенков А.М., Хайруллина А.И. Представление модели данных Epicenter POSC на языке онтологий OWL // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2006. Казань: Изд-во «Отечество», 2007. С. 38–49.
19. Биряльцев Е.В., Гусенков А.М. Построение онтологии предметной области на основе логической модели баз данных // Труды Всерос. конф. с международным участием «Знания-Онтологии-Теории» (ЗОНТ-07). Новосибирск: Ин-т математики им. С.Л. Соболева СО РАН, 2007. Т. 1. С. 176–183.
20. URL: http://www.energistics.org/energistics-standards-directory/epicentre-archive.
21. URL: https://www.w3.org/OWL.
22. Fellbaum C. (ed.) WordNet: An electronic lexical database. Cambridge: MIT Press, 1998. 423 p.
23. Биряльцев Е.В., Гусенков А.М. Онтологии реляционных баз данных. Лингвистический аспект. // Тр. межд. конф. Диалог'2007, «Бекасово», 30 мая – 3 июня 2007 г. М.: Изд. центр РГГУ, 2007. С. 50–53.
24. URL: http://www.dialog-21.ru/Archive/2001/volume2/2_21.htm.
25. Биряльцев Е.В., Гусенков А.М., Миронов С.В. Один подход к реализации нерегламентированного доступа к реляционным базам данных // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2008. Казань, 10–13 декабря 2008 г. Казань: Изд-во Казанского ун-та, 2009. С. 10–23.
26. Misutka J., Galambos L. Extending full text search engine for mathematical content // Proceedings of DML. 2008. P. 55–67.
27. URL: http://lucene.apache.org.
28. Биряльцев Е.В., Галимов М.Р., Гусенков А.М., Жибрик О.Н. Некоторые подходы к повышению релевантности поиска математических выражений в естественнонаучных текстах // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2012. Казань, 25–28 января 2012 г. Казань: Изд-во Фэн Академии наук РТ, 2012. С. 78–93.
29. Биряльцев Е.В., Гусенков А.М., Жибрик О.Н. Некоторые подходы к разметке естественнонаучных текстов, содержащих математические выражения // Ученые записки Казанского университета. 2014. Т. 156, Кн. 4. С. 133–148.
30. Биряльцев Е.В., Галимов М.Р., Жильцов Н.Г., Невзорова О.А. Подход к семантическому поиску математических выражений в научных текстах // Материалы межд. науч.-техн. конф. OSTIS-2012. Минск: БГУИР, 2012. С. 245–256.
31. Nevzorova O., Zhiltsov N., Zaikin D., Zhibrik O., Kirillovich A., Nevzorov V., Birialtsev E. Bringing Math to LOD: a semantic publishing platform prototype for scientific collections in Mathematics // The SemanticWeb – ISWC 2013. 12th Int. SemanticWeb Conference. Sydney, NSW, Australia, October 21–25, 2013. Springer, Lecture Notes in Computer Science, 2013. V. 8218. P. 379–394.
32. URL: http://www.w3.org/TR/rdf-sparql-query/.
33. Биряльцев Е.В., Гусенков А.М., Жибрик О.Н. Поиск математических выражений в естественно-научных текстах. Экспериментальная оценка релевантности // Интеллект. Язык. Компьютер. Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2014. Казань: Изд-во Фэн Академии наук РТ, 2014. С. 34–37.
34. Биряльцев Е.В., Гусенков А.М., Елизаров А.М. О доступе к электронным коллекциям в виде реляционных баз данных на основе онтологий // Труды 9-й Всерос. научн. конф. Электронные библиотеки: перспективные методы и технологии, электронные коллекции – RCDL-2007, Переславль-Залесский, Россия, 15–18 октября 2007 г. Переславль-Залесский, Ярославль: Изд-во Университет города Переславля, 2007. С. 211–216
35. Elizarov A.M., Kirillovich A.V., Lipachev E.K., Nevzorova O.A., Solovyev V.D., Zhiltsov N.G. Mathematical knowledge representation: semantic models and formalisms // Lobachevskii Journal of Mathematics. 2014. V. 35, No 4. P. 347–353.
36. Биряльцев Е.В., Елизаров А.М., Жильцов Н.Г., Липачев Е.К., Невзорова О.А., Соловьев В.Д. Методы анализа семантических данных математических электронных коллекций// Научно-техническая информация. Серия 2. Информационные процессы и системы. 2014. № 4. С. 12–16 (Biryal’tsev E.V., Elizarov A.M., Zhil’tsov N.G., Lipachev E.K., Nevzorova O.A., Solov’ev V.D. Methods for analyzing semantic data of electronic collections in mathematics// Automatic Documentation and Mathematical Linguistics. 2014. V. 48, No 2. P. 81–85).
37. Елизаров А.М., Липачёв Е.К., Хохлов Ю.Е. Семантические методы структурирования математического контента, обеспечивающие расширенную поисковую функциональность// Информационное общество. 2013. № 1–2. С. 83–92.
38. Елизаров А.М., Липачев Е.К., Невзорова О.А., Соловьев В.Д. Методы и средства семантического структурирования электронных математических документов // Докл. РАН. 2014. Т. 457, № 6. С. 642–645.
39. Елизаров А.М., Липачев Е.К., Малахальцев М.А. Веб-технологии для математика: основы MathML. Практическое руководство. М.: Физматлит, 2010. 192 с.
40. Елизаров А.М., Липачев Е.К., Малахальцев М.А. Сервисы электронных естественнонаучных коллекций, построенные на основе технологии MathML // Труды Всероссийской суперкомпьютерной конф. «Научный сервис в сети Интернет: суперкомпьютерные центры и задачи», г. Новороссийск, 20–25 сентября 2010 г. М.: Изд-во Московского ун-та, 2010. С. 533–534.
41. URL: http://gate.ac.uk/.