RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2023, том 514, номер 2, страницы 262–269 (Mi danma471)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Большие языковые модели для следования инструкциям на русском языке: модели и датасеты с открытой лицензией для коммерческого использования

Д. Косенкоab, Ю. Куратовabc, Д. Жариковаb

a Московский физико-технический институт, Москва, Россия
b DeepPavlov, Москва, Россия
c AIRI, Москва, Россия

Аннотация: В данной статье представлен подход к разработке и дообучению больших языковых моделей для русского языка, способных следовать инструкциям в различных доменах. В качестве базовых моделей использованы XGLM-4.5B, LLaMA-1 7B, LLaMA-1 13B, LLaMA-2 7B, LLaMA-2 13B, ruGPT-3.5 13B. В данной работе проводятся сравнения двух основных методик дообучения: дообучение всех параметров модели и дообучение с использованием LoRA слоев. Для создания датасета для дообучения модели использованы несколько открытых источников данных на английском языке, таких как Databricks Dolly 15k, OpenAssistant Conversations Dataset (OASST1), chip2-instruct-alpha-v6a-1, которые затем были переведены на русский язык с помощью модели WMT 21 En-X с лицензией MIT. В данной работе показано, что качество предоставляемых для обучения инструкций существенно влияет на способность решения задач на автоматических метриках качества MT-BENCH и MMLU. При этом качество моделей, обученных на собранном в рамках работы датасете с коммерческой лицензией, достигает сравнимых результатов с моделями, дообученными на датасете Saiga с ограниченной лицензией. Дообученные языковые модели и собранный набор данных для русского языка выложены в открытый доступ с лицензиями, подходящими для коммерческого использования.

Ключевые слова: большие языковые модели, языковые модели, языковые модели для русского языка.

УДК: 0004.8

Статья представлена к публикации: А. Л. Семёнов
Поступило: 31.08.2023
После доработки: 30.09.2023
Принято к публикации: 15.10.2023

DOI: 10.31857/S2686954323602063


 Англоязычная версия: Doklady Mathematics, 2023, 108:suppl. 2, S393–S398

Реферативные базы данных:


© МИАН, 2024