RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 320–331 (Mi danma690)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Многоаспектная оценка методов адаптации токенизатора для больших языковых моделей на русском языке

Г. Д. Андрющенкоa, М. Э. Годуноваa, В. В. Ивановab, Д. С. Кузьминa, А. А. Париновa, А. Ю. Щениковаc, Е. В. Жемчужинаa

a Национальный исследовательский университет "Высшая школа экономики", Москва, Россия
b Университет Иннополис
c МТС Web Services, г. Москва

Аннотация: Большие языковые модели (Large language model, LLM), предобученные на корпусах, состоящих из большинства текстов на английском языке, показывают более низкое качество и работают неоптимально на других естественных языках. Адаптация словаря LLM обеспечивает ресурсоэффективный способ повышения качества предобученной модели. Ранее предложенные методы адаптации фокусировались на метриках качества (точности) и размера (фертильности), игнорируя другие аспекты, такие как задержка, вычислительные затраты на адаптацию и степень катастрофического забывания. Данная статья восполняет этот пробел и предлагает многоаспектное сравнение нескольких методов адаптации токенизаторов для фиксированной LLM на основе декодера. В наших экспериментах мы сосредоточились только на тексте на русском языке для обеспечения чистоты эксперимента в условиях ограниченных ресурсов. В контролируемых условиях мы сравнили три метода. Работа устанавливает новые базовые показатели адаптации токенизатора к русскому языку и демонстрирует вычислительно эффективный способ повышения производительности, снижая потребление GPU-часов в 2–3 раза.

Ключевые слова: большие языковые модели, адаптация токенизатора, качество генерации текста, скорость генерации текста.

УДК: 00.6:004.89

Поступило: 21.08.2025
Принято к публикации: 29.09.2025

DOI: 10.7868/S2686954325070288



Реферативные базы данных:


© МИАН, 2025