Аннотация:
Мультиязычные большие языковые модели (LLM) часто показывают сниженную производительность для языков, отличных от английского, из-за несбалансированности обучающих данных. Прямая адаптация таких моделей к новому языку, например русскому, сопряжена с риском катастрофического забывания исходных знаний и требует значительных вычислительных ресурсов. В этой работе мы представляем Ruadapt – комплексную и вычислительно эффективную методологию для языковой адаптации LLM с заменой токенизации. Полная адаптация одного варианта Qwen3-8B модели по нашей методологии требует менее 2000 GPU-часов, а последующая адаптация других вариантов в 10 раз меньше, благодаря разделимости результатов каждого шага процедуры. Оптимальная конфигурация процедуры адаптации позволяет добиться до 80% ускорения генерации с полным сохранением навыков работы с длинным контекстом и незначительными потерями эффективности анализа пользовательских инструкций. Мы приводим подробное эмпирическое исследование каждого шага адаптации с целью определения оптимальных гиперпараметров, а также ключевых этапов и их влияния на итоговое качество. Выработанные рекомендации применяются в текущем поколении моделей Ruadapt, включая RuadaptQwen3-32B-Hybrid. Мы публикуем наши модели, код и наборы данных в открытом доступе, предлагая научному сообществу проверенную и экономически целесообразную стратегию создания высококачественных языковых моделей.
Ключевые слова:
большие языковые модели, языковая адаптация, русский язык.
УДК:517.54
Поступило: 21.08.2025 Принято к публикации: 29.09.2025