Аннотация:
Рассмотрена проблема координации разнородных программных средств в гетерогенных средах распределенного запуска приложений. Ручное конфигурирование параметров запуска для вновь устанавливаемых программ на вычислительный кластер (таких как ключи командной строки, значения переменных окружения и настройки конфигурационных файлов) создает серьезные трудности для исследователей предметных областей из-за больших объемов служебной информации и необходимости сохранения и агрегации информации в некотором фиксированном формате. Предложен метод автоматизированного извлечения параметров запуска, базирующийся на гибридной архитектуре обучения нейронной сети, сочетающей генерацию обучающей выборки большими языковыми моделями и последующее дообучение компактного трансформерного энкодера. Реализация подхода исключает зависимость от дорогостоящих графических ускорителей за счет применения методики низкоранговой адаптации (Low-Rank Adaptation) для моделей размером до 1 млрд параметров, что обеспечивает возможность выполнения модели (инференса) на обычных центральных процессорах управляющих узлов. Для формализации качества извлечения разработана двухкомпонентная метрика, агрегирующая структурную корректность выходной JSON-схемы (наличие в полученных данных обязательных полей, типов параметров программы) и семантическую точность значений параметров (соответствие описания в документации). Экспериментальная оценка метода ориентирована на корпус документации программных пакетов (man-страницы, README). Результаты проектирования подтверждают возможность аппроксимации процесса анализа документации компактной моделью, что способствует автоматизации жизненного цикла развертывания программного обеспечения и снижению ошибок управления потоками задач в распределенных вычислительных комплексах.