D. S. Shaikhelislamov, M. S. Varetsa, A. S. Syomkin, O. Y. Rogov, “Tuning LLM in secure code generation”, Труды ИСП РАН, 2025, том 37, выпуск 5,страницы 111

Tuning LLM in secure code generation

[Настройка языковой модели для безопасной генерации кода]

D. S. Shaikhelislamov^abc, M. S. Varetsa^d, A. S. Syomkin^a, O. Y. Rogov^e

^a National Research University Higher School of Economics
^b Moscow Institute of Physics and Technology (National Research University)
^c Ivannikov Institute for System Programming of the RAS
^d MIREA — Russian Technological University, Moscow
^e Artificial Intelligence Research Institute

Аннотация: Популярность использования LLM для генерации кода делает обязательной всестороннюю проверку безопасности и надежности сгенерированного кода. Для проверки сгенерированного кода предлагается использовать статический анализатор Svace, который проверяет исполняемый код с помощью встроенного компилятора и проверяет код на наличие дефектов. Результат генерации обрабатывается с помощью Svace и получает запросы с обнаруженными предупреждениями или ошибками в коде и запрашивает исправления у LLM после генерации. Кроме того, настраиваем модель Qwen2.5-Coder, используя прямую оптимизацию предпочтений (DPO) для пар кодов ошибок, которые включают распространенные синтаксические ошибки и ошибки во время выполнения. Это снизило частоту ошибок, включая синтаксические и уязвимые места, на 20%. Для оценки моделей мы собрали специализированный набор данных из открытых наборов для оценки LLM, сосредоточив внимание на задачах, в которых модели генерируют ошибочный код. Результаты экспериментов показывают, что тонкая настройка модели с акцентом на качество кода позволяет генерировать код, который уменьшает количество типичных ошибок. В этой работе мы объединяем механизм итеративных запросов с DPO для повышения безопасности и точности генерации кода LLM.

Ключевые слова: генерация кода, большие языковые модели, статический анализ, обратная связь от анализаторов, безопасность кода, настройка моделей.

Язык публикации: английский

DOI: 10.15514/ISPRAS-2025-37(5)-8