RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 290–300 (Mi danma687)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Ruadapt: вычислительно эффективная языковая адаптация больших языковых моделей

М. М. Тихомиров, Д. И. Чернышев

Научно-исследовательский вычислительный центр Московского государственного университета имени М. В. Ломоносова, Москва, Россия

Аннотация: Мультиязычные большие языковые модели (LLM) часто показывают сниженную производительность для языков, отличных от английского, из-за несбалансированности обучающих данных. Прямая адаптация таких моделей к новому языку, например русскому, сопряжена с риском катастрофического забывания исходных знаний и требует значительных вычислительных ресурсов. В этой работе мы представляем Ruadapt – комплексную и вычислительно эффективную методологию для языковой адаптации LLM с заменой токенизации. Полная адаптация одного варианта Qwen3-8B модели по нашей методологии требует менее 2000 GPU-часов, а последующая адаптация других вариантов в 10 раз меньше, благодаря разделимости результатов каждого шага процедуры. Оптимальная конфигурация процедуры адаптации позволяет добиться до 80% ускорения генерации с полным сохранением навыков работы с длинным контекстом и незначительными потерями эффективности анализа пользовательских инструкций. Мы приводим подробное эмпирическое исследование каждого шага адаптации с целью определения оптимальных гиперпараметров, а также ключевых этапов и их влияния на итоговое качество. Выработанные рекомендации применяются в текущем поколении моделей Ruadapt, включая RuadaptQwen3-32B-Hybrid. Мы публикуем наши модели, код и наборы данных в открытом доступе, предлагая научному сообществу проверенную и экономически целесообразную стратегию создания высококачественных языковых моделей.

Ключевые слова: большие языковые модели, языковая адаптация, русский язык.

УДК: 517.54

Поступило: 21.08.2025
Принято к публикации: 29.09.2025

DOI: 10.7868/S2686954325070252



Реферативные базы данных:


© МИАН, 2025