RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2023, том 514, номер 2, страницы 126–137 (Mi danma458)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта

М. И. Рудаковab, А. Н. Безносиковab, Я. А. Холодовab, А. В. Гасниковab

a Университет Иннополис, Иннополис, Республика Татарстан, Россия
b Московский физико-технический институт, Москва, Россия

Аннотация: Современные большие нейронные сети требуют для обучения огромных вычислительных ресурсов. В такой постановке параллелизация процесса обучения, когда последовательные слои модели разбиваются между устройствами, является популярным подходом для обучения больших моделей. Для уменьшения времени обмена данными между устройствами, часто являющимся узким местом в таких системах, применяется сжатие информации. В данной работе исследуется влияние одновременного сжатия активаций и градиентов в режиме параллелизации по модели на сходимость процесса обучения. Мы анализируем такие подходы, как квантизация и “жадное” TopK сжатие, а также экспериментируем с методами компенсации ошибки. Мы исследуем TopK сжатие с использованием подхода AQ-SGD с побатчевой компенсацией ошибки сжатия. Сравнения проводятся на задачах обучения ResNet18 и дообучения GPT-2. Полученные нами результаты показывают, что градиенты более чувствительны к степени сжатия, чем активации слоев модели. По нашим наблюдениям, $K=10\%$ – это максимальный уровень сжатия TopK, который не оказывает сильного влияния на сходимость модели. Эксперименты также показывают, что модели, обученные с использованием сжатия TopK, хорошо работают только в том случае, если сжатие применяется и во время валидации. Мы обнаружили, что техники компенсации ошибки одновременно для активаций и градиентов не улучшают сходимость по сравнению с обычным сжатием. Наконец, применение подхода AQ-SGD с TopK сжатием сильнее, чем при $K=30\%$, значительно ухудшает качество модели.

Ключевые слова: распределенное обучение, параллелизм модели, сжатие активаций, сжатие градиентов, техники компенсации ошибки.

УДК: 517.54

Статья представлена к публикации: А. Л. Семёнов
Поступило: 01.09.2023
После доработки: 15.09.2023
Принято к публикации: 18.10.2023

DOI: 10.31857/S2686954323601562


 Англоязычная версия: Doklady Mathematics, 2023, 108:suppl. 2, S272–S281

Реферативные базы данных:


© МИАН, 2024