Аннотация:
Работа посвящена проблеме применения онтологического подхода при построении датасета для оценки и сравнения систем обогащения контекста большой языковой модели с использованием графов знаний в доменной области машиностроительных систем полного жизненного цикла. В доменной области сложно получить необходимое количество текстовых данных с формальной логической структурой для формирования оценочного набора без использования сгенерированных синтетических данных. Для исключения внесения искажений и галлюцинаций при формировании оценочного набора предложено оригинальное решение проблемы дефицита данных за счет извлечения онтологии непосредственно из файлов изделий и сборок, соответствующих стандарту STandard for Exchange of Product model data что потенциально позволяет использовать все данные об изделиях как источник для масштабирования оценочных данных. Целью работы стали создание датасета структурированных текстовых данных в доменной области машиностроительных систем полного жизненного цикла, разработка методики оценки и реализация конвейеров обогащения контекста большой языковой модели с применением и без применения графов знаний для анализа вклада систем с извлечением структуры данных в качество генерируемых ответов. Предложен новый источник оценочных данных, разработана новая методика формирования текстовых оценочных данных с сохранением логической структуры, реализован конвейер для использования сгенерированных оценочных данных. Получены результаты оценки, подтверждающие положительный вклад систем с извлечением структурированных данных в качество генерируемых ответов в доменной области машиностроительных систем полного жизненного цикла.