СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ
Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта
М. И. Рудаковab,
А. Н. Безносиковab,
Я. А. Холодовab,
А. В. Гасниковab a Университет Иннополис, Иннополис, Республика Татарстан, Россия
b Московский физико-технический институт, Москва, Россия
Аннотация:
Современные большие нейронные сети требуют для обучения огромных вычислительных ресурсов. В такой постановке параллелизация процесса обучения, когда последовательные слои модели разбиваются между устройствами, является популярным подходом для обучения больших моделей. Для уменьшения времени обмена данными между устройствами, часто являющимся узким местом в таких системах, применяется сжатие информации. В данной работе исследуется влияние одновременного сжатия активаций и градиентов в режиме параллелизации по модели на сходимость процесса обучения. Мы анализируем такие подходы, как квантизация и “жадное” TopK сжатие, а также экспериментируем с методами компенсации ошибки. Мы исследуем TopK сжатие с использованием подхода AQ-SGD с побатчевой компенсацией ошибки сжатия. Сравнения проводятся на задачах обучения ResNet18 и дообучения GPT-2. Полученные нами результаты показывают, что градиенты более чувствительны к степени сжатия, чем активации слоев модели. По нашим наблюдениям,
$K=10\%$ – это максимальный уровень сжатия TopK, который не оказывает сильного влияния на сходимость модели. Эксперименты также показывают, что модели, обученные с использованием сжатия TopK, хорошо работают только в том случае, если сжатие применяется и во время валидации. Мы обнаружили, что техники компенсации ошибки одновременно для активаций и градиентов не улучшают сходимость по сравнению с обычным сжатием. Наконец, применение подхода AQ-SGD с TopK сжатием сильнее, чем при
$K=30\%$, значительно ухудшает качество модели.
Ключевые слова:
распределенное обучение, параллелизм модели, сжатие активаций, сжатие градиентов, техники компенсации ошибки.
УДК:
517.54 Статья представлена к публикации: А. Л. СемёновПоступило: 01.09.2023
После доработки: 15.09.2023
Принято к публикации: 18.10.2023
DOI:
10.31857/S2686954323601562