RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2024, том 540, страницы 27–45 (Mi znsl7542)

Refining joint text and source code embeddings for retrieval task with parameter-efficient fine-tuning

[Улучшение совместных вложений текстов и кода для задачи поиска с эффективным по параметрам дообучением]

K. Galliamov, L. Khaertdinova, K. Denisova

Innopolis University, Innopolis, Russia

Аннотация: Последние достижения в области обработки естественного языка (NLP) демонстрируют значительный прогресс в задаче поиска по исходному коду. По мере увеличения размеров моделей на базе трансформеров, используемых в этой задаче, возрастают вычислительные затраты и время, необходимые для полного их дообучения. Это представляет серьёзную проблему для адаптации и использования этих моделей в условиях ограниченных вычислительных ресурсов. В связи с этими проблемами мы предлагаем метод дообучения, который использует техники эффективного по параметрам дообучения (PEFT). Кроме того, мы применяем контрастивные функции ошибки для улучшения качества бимодальных представлений, обучаемых моделями на основе трансформеров. Для методов PEFT мы предоставляем широкие сравнительные оценки, отсутствие которых было отмечено как важная проблема в литературе. На основе экспериментов с моделью CodeT5+, проведённых на двух наборах данных, мы демонстрируем, что предложенный фреймворк настройки способен улучшить эффективность поиска по коду и тексту, настраивая не более 0.4% параметров. Библ. – 25 назв.

Ключевые слова: поиск по коду, PEFT, CodeT5+, контрастивное обучение, обработка естественных языков.

Поступило: 15.11.2024

Язык публикации: английский



© МИАН, 2025