Аннотация:
Большие языковые модели (Large language model, LLM), предобученные на корпусах, состоящих из большинства текстов на английском языке, показывают более низкое качество и работают неоптимально на других естественных языках. Адаптация словаря LLM обеспечивает ресурсоэффективный способ повышения качества предобученной модели. Ранее предложенные методы адаптации фокусировались на метриках качества (точности) и размера (фертильности), игнорируя другие аспекты, такие как задержка, вычислительные затраты на адаптацию и степень катастрофического забывания. Данная статья восполняет этот пробел и предлагает многоаспектное сравнение нескольких методов адаптации токенизаторов для фиксированной LLM на основе декодера. В наших экспериментах мы сосредоточились только на тексте на русском языке для обеспечения чистоты эксперимента в условиях ограниченных ресурсов. В контролируемых условиях мы сравнили три метода. Работа устанавливает новые базовые показатели адаптации токенизатора к русскому языку и демонстрирует вычислительно эффективный способ повышения производительности, снижая потребление GPU-часов в 2–3 раза.
Ключевые слова:
большие языковые модели, адаптация токенизатора, качество генерации текста, скорость генерации текста.
УДК:
00.6:004.89
Поступило: 21.08.2025 Принято к публикации: 29.09.2025