Интеллектуальный поиск сложных объектов в массивах больших данных

Main Article Content

Александр Михайлович Гусенков

Аннотация

Предложен подход к интеллектуальному поиску сложных объектов в различных типах структурно размеченных текстов, который может быть применен для обработки Больших данных (Big Data). Исследуются два вида представления информационных объектов: реляционные базы данных (РБД), которые структурно размечены своими схемами, и полнотекстовые естественнонаучные документы, содержащие математические выражения (формулы). Для таких полнотекстовых документов предлагается дополнительная автоматизированная разметка для организации поиска формул. В обоих случаях источником информации для построения онтологии и, в дальнейшем, организации поиска являются тексты на естественном языке, которые относятся к слабоструктурированным данным. Для РБД это комментарии к наименованиям таблиц и их атрибутов, а для естественнонаучных документов (статей, монографий и т. д.) – текстовое содержимое размеченных документов.

Article Details

Биография автора

Александр Михайлович Гусенков

Старший преподаватель Института вычислительной математики и информационных технологий Казанского (Приволжского) федерального университета

Библиографические ссылки

1. Hopkins B., Evelson B. Expand your digital horizon with Big Data. URL: http://www.asterdata.com/newsletter-images/30-04-2012/resources/forrester_ expand_your_digital_horiz.pdf, 2011.
2. URL: http://nosql-database.org/.
3. URL: https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html.
4. URL: http://hadoop.apache.org/.
5. URL: https://hana.sap.com/abouthana.html.
6. Когаловский М.Р. Методы интеграции данных в информационных системах // Институт проблем рынка РАН, Москва, 2010. URL: http://www.ipr-ras.ru//articles/kogalov10-05.pdf.
7. URL: https://www.w3.org/TR/2004/REC-owl-features-20040210/.
8. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. 384 с.
9. Buneman P. Semistructured data // Proceedings of the Sixteenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Tucson, Arizona, United States, May 11–15, 1997. P. 117–121.
10. Биряльцев Е.В., Гусенков А.М., Косинов Я.Г. Представление структуры реляционных баз данных в формализме онтологий // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2006. Казань: Изд-во «Отечество», 2007. С. 32–37.
11. Биряльцев Е.В., Гусенков А.М. Интеграция реляционных баз данных на основе онтологий. // Ученые записки Казанского государственного университета. Серия Физико-математические науки. 2007. Т. 149, Кн. 2. С. 13–25.
12. Гусенков А., Биряльцев Е., Жибрик О. Интеллектуальный поиск в структурированных массивах информации // LAP LAMBERT Academic Publishing, 2015. 129 с.
13. Гарсиа-Молина Г., Ульман Дж., Уидом Дж. Системы баз данных. Полный курс / Database Systems: The Complete Book // Вильямс, 2003. 1088 с.
14. Буч Г., Рамбо Д., Джекобсон А. Язык UML. Руководство пользователя. Пер. с англ. М.: ДМК, 2000. 432 с.
15. Биряльцев Е.В., Гусенков А.М., Галимов М.Р. Особенности лексико-семантической структуры наименований артефактов реляционных баз данных // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2005. Казань: Изд-во Казанского ун-та, 2006. С. 4–12.
16. Жучков А.В., Арнаутов С.А., Твердохлебов Н.В. Новые технологии для понятийных сетей, создаваемых в рамках МНТП «Вакцины нового поколения и диагностические системы будущего» // Электронные библиотеки, 2003. Т. 6, Вып. 6. URL: http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2003/part6/ ZATGS.
17. Андерсон Дж. Дискретная математика и комбинаторика. Пер. с англ. М.: Изд. дом «Вильямс», 2003. 960 с.
18. Биряльцев Е.В., Гусенков А.М., Хайруллина А.И. Представление модели данных Epicenter POSC на языке онтологий OWL // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2006. Казань: Изд-во «Отечество», 2007. С. 38–49.
19. Биряльцев Е.В., Гусенков А.М. Построение онтологии предметной области на основе логической модели баз данных // Труды Всерос. конф. с международным участием «Знания-Онтологии-Теории» (ЗОНТ-07). Новосибирск: Ин-т математики им. С.Л. Соболева СО РАН, 2007. Т. 1. С. 176–183.
20. URL: http://www.energistics.org/energistics-standards-directory/epicentre-archive.
21. URL: https://www.w3.org/OWL.
22. Fellbaum C. (ed.) WordNet: An electronic lexical database. Cambridge: MIT Press, 1998. 423 p.
23. Биряльцев Е.В., Гусенков А.М. Онтологии реляционных баз данных. Лингвистический аспект. // Тр. межд. конф. Диалог'2007, «Бекасово», 30 мая – 3 июня 2007 г. М.: Изд. центр РГГУ, 2007. С. 50–53.
24. URL: http://www.dialog-21.ru/Archive/2001/volume2/2_21.htm.
25. Биряльцев Е.В., Гусенков А.М., Миронов С.В. Один подход к реализации нерегламентированного доступа к реляционным базам данных // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2008. Казань, 10–13 декабря 2008 г. Казань: Изд-во Казанского ун-та, 2009. С. 10–23.
26. Misutka J., Galambos L. Extending full text search engine for mathematical content // Proceedings of DML. 2008. P. 55–67.
27. URL: http://lucene.apache.org.
28. Биряльцев Е.В., Галимов М.Р., Гусенков А.М., Жибрик О.Н. Некоторые подходы к повышению релевантности поиска математических выражений в естественнонаучных текстах // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2012. Казань, 25–28 января 2012 г. Казань: Изд-во Фэн Академии наук РТ, 2012. С. 78–93.
29. Биряльцев Е.В., Гусенков А.М., Жибрик О.Н. Некоторые подходы к разметке естественнонаучных текстов, содержащих математические выражения // Ученые записки Казанского университета. 2014. Т. 156, Кн. 4. С. 133–148.
30. Биряльцев Е.В., Галимов М.Р., Жильцов Н.Г., Невзорова О.А. Подход к семантическому поиску математических выражений в научных текстах // Материалы межд. науч.-техн. конф. OSTIS-2012. Минск: БГУИР, 2012. С. 245–256.
31. Nevzorova O., Zhiltsov N., Zaikin D., Zhibrik O., Kirillovich A., Nevzorov V., Birialtsev E. Bringing Math to LOD: a semantic publishing platform prototype for scientific collections in Mathematics // The SemanticWeb – ISWC 2013. 12th Int. SemanticWeb Conference. Sydney, NSW, Australia, October 21–25, 2013. Springer, Lecture Notes in Computer Science, 2013. V. 8218. P. 379–394.
32. URL: http://www.w3.org/TR/rdf-sparql-query/.
33. Биряльцев Е.В., Гусенков А.М., Жибрик О.Н. Поиск математических выражений в естественно-научных текстах. Экспериментальная оценка релевантности // Интеллект. Язык. Компьютер. Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2014. Казань: Изд-во Фэн Академии наук РТ, 2014. С. 34–37.
34. Биряльцев Е.В., Гусенков А.М., Елизаров А.М. О доступе к электронным коллекциям в виде реляционных баз данных на основе онтологий // Труды 9-й Всерос. научн. конф. Электронные библиотеки: перспективные методы и технологии, электронные коллекции – RCDL-2007, Переславль-Залесский, Россия, 15–18 октября 2007 г. Переславль-Залесский, Ярославль: Изд-во Университет города Переславля, 2007. С. 211–216
35. Elizarov A.M., Kirillovich A.V., Lipachev E.K., Nevzorova O.A., Solovyev V.D., Zhiltsov N.G. Mathematical knowledge representation: semantic models and formalisms // Lobachevskii Journal of Mathematics. 2014. V. 35, No 4. P. 347–353.
36. Биряльцев Е.В., Елизаров А.М., Жильцов Н.Г., Липачев Е.К., Невзорова О.А., Соловьев В.Д. Методы анализа семантических данных математических электронных коллекций// Научно-техническая информация. Серия 2. Информационные процессы и системы. 2014. № 4. С. 12–16 (Biryal’tsev E.V., Elizarov A.M., Zhil’tsov N.G., Lipachev E.K., Nevzorova O.A., Solov’ev V.D. Methods for analyzing semantic data of electronic collections in mathematics// Automatic Documentation and Mathematical Linguistics. 2014. V. 48, No 2. P. 81–85).
37. Елизаров А.М., Липачёв Е.К., Хохлов Ю.Е. Семантические методы структурирования математического контента, обеспечивающие расширенную поисковую функциональность// Информационное общество. 2013. № 1–2. С. 83–92.
38. Елизаров А.М., Липачев Е.К., Невзорова О.А., Соловьев В.Д. Методы и средства семантического структурирования электронных математических документов // Докл. РАН. 2014. Т. 457, № 6. С. 642–645.
39. Елизаров А.М., Липачев Е.К., Малахальцев М.А. Веб-технологии для математика: основы MathML. Практическое руководство. М.: Физматлит, 2010. 192 с.
40. Елизаров А.М., Липачев Е.К., Малахальцев М.А. Сервисы электронных естественнонаучных коллекций, построенные на основе технологии MathML // Труды Всероссийской суперкомпьютерной конф. «Научный сервис в сети Интернет: суперкомпьютерные центры и задачи», г. Новороссийск, 20–25 сентября 2010 г. М.: Изд-во Московского ун-та, 2010. С. 533–534.
41. URL: http://gate.ac.uk/.