М. И. Рудаков, А. Н. Безносиков, Я. А. Холодов, А. В. Гасников, “Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта”, Докл. РАН. Матем., информ., проц. упр., 2023, том 514, номер 2,страницы 126

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта

М. И. Рудаков^ab, А. Н. Безносиков^ab, Я. А. Холодов^ab, А. В. Гасников^ab

^a Университет Иннополис, Иннополис, Республика Татарстан, Россия
^b Московский физико-технический институт, Москва, Россия

Аннотация: Современные большие нейронные сети требуют для обучения огромных вычислительных ресурсов. В такой постановке параллелизация процесса обучения, когда последовательные слои модели разбиваются между устройствами, является популярным подходом для обучения больших моделей. Для уменьшения времени обмена данными между устройствами, часто являющимся узким местом в таких системах, применяется сжатие информации. В данной работе исследуется влияние одновременного сжатия активаций и градиентов в режиме параллелизации по модели на сходимость процесса обучения. Мы анализируем такие подходы, как квантизация и “жадное” TopK сжатие, а также экспериментируем с методами компенсации ошибки. Мы исследуем TopK сжатие с использованием подхода AQ-SGD с побатчевой компенсацией ошибки сжатия. Сравнения проводятся на задачах обучения ResNet18 и дообучения GPT-2. Полученные нами результаты показывают, что градиенты более чувствительны к степени сжатия, чем активации слоев модели. По нашим наблюдениям, $K=10\%$ – это максимальный уровень сжатия TopK, который не оказывает сильного влияния на сходимость модели. Эксперименты также показывают, что модели, обученные с использованием сжатия TopK, хорошо работают только в том случае, если сжатие применяется и во время валидации. Мы обнаружили, что техники компенсации ошибки одновременно для активаций и градиентов не улучшают сходимость по сравнению с обычным сжатием. Наконец, применение подхода AQ-SGD с TopK сжатием сильнее, чем при $K=30\%$, значительно ухудшает качество модели.

Ключевые слова: распределенное обучение, параллелизм модели, сжатие активаций, сжатие градиентов, техники компенсации ошибки.

УДК: 517.54

Статья представлена к публикации: А. Л. Семёнов
Поступило: 01.09.2023
После доработки: 15.09.2023
Принято к публикации: 18.10.2023

DOI: 10.31857/S2686954323601562