Методы автоматизированного извлечения параметров и описаний программ для интеграции их на вычислительные комплексы

Main Article Content

Тимофей Владимирович Санников
Алексей Николаевич Сальников

Аннотация

Рассмотрена проблема координации разнородных программных средств в гетерогенных средах распределенного запуска приложений. Ручное конфигурирование параметров запуска для вновь устанавливаемых программ на вычислительный кластер (таких как ключи командной строки, значения переменных окружения и настройки конфигурационных файлов) создает серьезные трудности для исследователей предметных областей из-за больших объемов служебной информации и необходимости сохранения и агрегации информации в некотором фиксированном формате. Предложен метод автоматизированного извлечения параметров запуска, базирующийся на гибридной архитектуре обучения нейронной сети, сочетающей генерацию обучающей выборки большими языковыми моделями и последующее дообучение компактного трансформерного энкодера. Реализация подхода исключает зависимость от дорогостоящих графических ускорителей за счет применения методики низкоранговой адаптации (Low-Rank Adaptation) для моделей размером до 1 млрд параметров, что обеспечивает возможность выполнения модели (инференса) на обычных центральных процессорах управляющих узлов. Для формализации качества извлечения разработана двухкомпонентная метрика, агрегирующая структурную корректность выходной JSON-схемы (наличие в полученных данных обязательных полей, типов параметров программы) и семантическую точность значений параметров (соответствие описания в документации). Экспериментальная оценка метода ориентирована на корпус документации программных пакетов (man-страницы, README). Результаты проектирования подтверждают возможность аппроксимации процесса анализа документации компактной моделью, что способствует автоматизации жизненного цикла развертывания программного обеспечения и снижению ошибок управления потоками задач в распределенных вычислительных комплексах.

Article Details

Как цитировать
Санников, Т. В., и А. Н. Сальников. «Методы автоматизированного извлечения параметров и описаний программ для интеграции их на вычислительные комплексы». Электронные библиотеки, т. 29, вып. 3, июнь 2026 г., сс. 919-36, doi:10.26907/1562-5419-2026-29-3-919-936.

Библиографические ссылки

1. Suter F. et al. A terminology for scientific workflow systems // Future Generation Computer Systems. 2026. Vol. 174. https://doi.org/10.1016/j.future.2025.107974
2. da Silva R.F. et al. Workflows Community Summit 2024: Future Trends and Challenges in Scientific Workflows: tech. rep. ORNL/TM-2024/3573. Oak Ridge: Oak Ridge National Laboratory, 2024.
3. Sannikov T.V., Salnikov A.N. Processing of Task Streams with Dependencies on Multiple Computing Clusters // Parallel Computational Technologies – 19th International Conference on Parallel Computing Technologies (PaVT'2025): short papers and poster descriptions. Chelyabinsk: South Ural State University Publishing House, 2025. P. 270–283. https://doi.org/10.14529/pct2025.
4. Wang D., Li Y., Zhang Z., Chen K. CarpetFuzz: Automatic Program Option Constraint Extraction from Documentation for Fuzzing // Proc. of the 32nd USENIX Security Symposium. Anaheim: USENIX Association, 2023. P. 2847–2864.
5. Ispoglou K., Austin D., Mohan V., Payer M. FuzzGen: Automatic Fuzzer Generation // Proc. of the 29th USENIX Security Symposium (USENIX Security 20). Boston: USENIX Association, 2020. P. 1001–1018.
6. Wilkinson S.R. et al. Applying the FAIR principles to computational workflows // Scientific Data. 2025. Vol. 12, No. 1. Art. 328. https://doi.org/10.1038/s41597-025-04451-9
7. Hu E. J. et al. LoRA: Low-Rank Adaptation of Large Language Models // Proc. of the International Conference on Learning Representations (ICLR). 2022. 16 p. URL: https://openreview.net/forum?id=nZeVKeeFYf9 (accessed 28.03.2026).


Наиболее читаемые статьи этого автора (авторов)