Сравнительный анализ текстов геологических публикаций с использованием больших языковых моделей
Main Article Content
Аннотация
Стремительный рост объема публикаций во всех областях геологических наук делает критически важным внедрение методов автоматизированной обработки научных текстов. Одним из наиболее перспективных инструментов для решения этой задачи выступают большие языковые модели на основе нейронных сетей. Огромный прорыв в области искусственного интеллекта за последние годы превратил такие модели в незаменимых помощников для исследователей.
Наши работы по семантическому поиску публикаций с использованием дополнительно тренированных языковых моделей и нахождения меры близости геологических текстов показали хорошие результаты. Но используемые модели оказались неспособны выполнить глубокий анализ текстов. Сравнительный анализ современных архитектур позволил нам выделить модель DeepSeek R1, относящуюся к классу систем с расширенными возможностями логического вывода. Данный тип моделей демонстрирует принципиально новый уровень качества генерации. На базе выбранной модели разработан веб-сервис, предоставляющий уникальный функционал, осуществляющий сравнительный анализ до 5 научных статей стандартного объема; поддержку мульти язычных источников (ввод текстов на английском, китайском, русском и др. языках); формирование структурированных отчетов на русском языке с выделением ключевых тезисов, противоречий и паттернов. Проведено тестирование предложенного подхода для сравнительного анализа геологических публикаций. Тестирование показало результаты, вызывающие доверие.
Ключевые слова:
Article Details
Библиографические ссылки
https://en.wikipedia.org/wiki/Large_language_model?ysclid=mg7ip9ev9d289421479 (date of access 01.10.2025)
2. Patuk M.I., Naumova V.V. Artificial Intelligence Methods for Scientific Research in Geology // Russian Digital Libraries Journal. 2023. Vol. 26, No. 5. P. 673–696. (In Russ.). https://doi.org/10.26907/1562-5419-2023-26-5-673-696
3. Patuk M.I., Naumova V.V. Using Semantic Search to Select and Rank Geological Publications // Automatic Documentation and Mathematical Linguistics. 2024. Vol. 58, Suppl. 5. P. S294–S298. https://doi.org/10.3103/S0005105525700372
4. Patuk M.I., Naumova V.V., Eryomenko V.S. Digital repository "geologyscience.ru": open access to scientific publications on russian geology // Russian Digital Library Journal. 2020. Vol. 23, No. 6. P. 1324–1338 (in Russian).
5. Kilizhekov O.K., Tolstov A.V., Yakhin Sh.M., Zyryanov I.V. Diamond deposit of the Mir kimberlite pipe: main research stages, specific features and results of exploration // Russian Mining Industry. 2025. No. 1. P. 49–56 (In Russ.).
https://doi.org/10.30686/1609-9192-2025-1-49-56
6. Shigley J., Chapman J., Ellison R. Discovery and Mining of the Argyle Diamond Deposit, Australia // Gems and Gemology. 2001. Vol. 37. P. 26–41. https://doi.org/10.5741/GEMS.37.1.26
7. ChatGPT.
URL: https://en.wikipedia.org/wiki/ChatGPT?ysclid=mg7j88jx9q883735240 (date of access 01.10.2025)
8. Picazo-Sanchez P., Ortiz-Martin L. Analysing the impact of ChatGPT in research // Applied Intelligence. 2024. Vol. 54. P. 4172–4188.
https://doi.org/10.1007/s10489-024-05298-0
9. Islam I., Islam M.N. Exploring the opportunities and challenges of ChatGPT in academia // Discover Education. 2024. Vol. 3. Article no. 31. https://doi.org/10.1007/s44217-024-00114-w
10. Faiza Farhat F., Sohail Sh. S., Dag Øivind Madsen D.Ø. How trustworthy is ChatGPT? The case of bibliometric analyses // Cogent Engineering. 2023. Vol. 10. Article no. 2222988. https://doi.org/10.1080/23311916.2023.2222988
11. Zashikhina I.M. Scientific Article Writing: Will ChatGPT Help? Vysshee obrazovanie v Rossii // Higher Education in Russia. 2023. Vol. 32, no. 8. P. 24–47.
https://doi.org/10.31992/0869-3617-2023-32-8-9-24-47 (In Russ., abstract in Eng.)
12. Hallucination (artificial intelligence). URL: https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence) (date of access 01.10.2025)
13. Salvagno M., Taccone F.S., Gerli A.G. Can artificial intelligence help for scientific writing? // Critical Care. 2023. Vol. 27. Article no. 75.
https://doi.org/10.1186/s13054-023-04380-2
14. Ghorbanfekr H., Kerstens P.J., Dirix K. Classification of geological borehole descriptions using a domain adapted large language model // Applied Computing and Geosciences. 2025. Vol. 25. Article no. 100229.
15. LLM Leaderboard.
https://artificialanalysis.ai/leaderboards/models (date of access 01.10.2025)
16. T-lite. https://huggingface.co/t-tech/T-lite-it-1.0-Q8_0-GGUF (date of access 01.10.2025)
17. GigaChat. https://giga.chat/ (date of access 01.10.2025)
18. DeepSeek. https://www.deepseek.com/en (date of access 01.10.2025)

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Представляя статьи для публикации в журнале «Электронные библиотеки», авторы автоматически дают согласие предоставить ограниченную лицензию на использование материалов Казанскому (Приволжскому) федеральному университету (КФУ) (разумеется, лишь в том случае, если статья будет принята к публикации). Это означает, что КФУ имеет право опубликовать статью в ближайшем выпуске журнала (на веб-сайте или в печатной форме), а также переиздавать эту статью на архивных компакт-дисках журнала или включить в ту или иную информационную систему или базу данных, производимую КФУ.
Все авторские материалы размещены в журнале «Электронные библиотеки» с ведома авторов. В случае, если у кого-либо из авторов есть возражения против публикации его материалов на данном сайте, материал может быть снят при условии уведомления редакции журнала в письменной форме.
Документы, изданные в журнале «Электронные библиотеки», защищены законодательством об авторских правах, и все авторские права сохраняются за авторами. Авторы самостоятельно следят за соблюдением своих прав на воспроизводство или перевод их работ, опубликованных в журнале. Если материал, опубликованный в журнале «Электронные библиотеки», с разрешения автора переиздается другим издателем или переводится на другой язык, то ссылка на оригинальную публикацию обязательна.
Передавая статьи для опубликования в журнале «Электронные библиотеки», авторы должны принимать в расчет, что публикации в интернете, с одной стороны, предоставляют уникальные возможности доступа к их материалам, но, с другой, являются новой формой обмена информацией в глобальном информационном обществе, где авторы и издатели пока не всегда обеспечены защитой от неправомочного копирования или иного использования материалов, защищенных авторским правом.
При использовании материалов из журнала обязательна ссылка на URL: http://rdl-journal.ru. Любые изменения, дополнения или редактирования авторского текста недопустимы. Копирование отдельных фрагментов статей из журнала разрешается для научных исследований, персонального использования, коммерческого использования до тех пор, пока есть ссылка на оригинальную статью.
Запросы на право переиздания или использования любых материалов, опубликованных в журнале «Электронные библиотеки», следует направлять главному редактору Елизарову А.М. по адресу: amelizarov@gmail.com
Издатели журнала «Электронные библиотеки» не несут ответственности за точки зрения, излагаемые в публикуемых авторских статьях.
Предлагаем авторам статей загрузить с этой страницы, подписать и выслать в адрес издателя журнала по электронной почте скан Авторского договора о передаче неисключительных прав на использование произведения.