Аннотация:
В данной статье представлен подход к разработке и дообучению больших языковых моделей для русского языка, способных следовать инструкциям в различных доменах. В качестве базовых моделей использованы XGLM-4.5B, LLaMA-1 7B, LLaMA-1 13B, LLaMA-2 7B, LLaMA-2 13B, ruGPT-3.5 13B. В данной работе проводятся сравнения двух основных методик дообучения: дообучение всех параметров модели и дообучение с использованием LoRA слоев. Для создания датасета для дообучения модели использованы несколько открытых источников данных на английском языке, таких как Databricks Dolly 15k, OpenAssistant Conversations Dataset (OASST1), chip2-instruct-alpha-v6a-1, которые затем были переведены на русский язык с помощью модели WMT 21 En-X с лицензией MIT. В данной работе показано, что качество предоставляемых для обучения инструкций существенно влияет на способность решения задач на автоматических метриках качества MT-BENCH и MMLU. При этом качество моделей, обученных на собранном в рамках работы датасете с коммерческой лицензией, достигает сравнимых результатов с моделями, дообученными на датасете Saiga с ограниченной лицензией. Дообученные языковые модели и собранный набор данных для русского языка выложены в открытый доступ с лицензиями, подходящими для коммерческого использования.
Ключевые слова:большие языковые модели, языковые модели, языковые модели для русского языка.
УДК:
0004.8
Статья представлена к публикации:А. Л. Семёнов Поступило: 31.08.2023 После доработки: 30.09.2023 Принято к публикации: 15.10.2023