|
СЕМИНАРЫ |
Математика ИИ
|
|||
|
Спектральный анализ обучения нейронных сетей Д. А. Яроцкий Центр технологий ИИ Сколтеха |
|||
Аннотация: Теоретический анализ эволюции нейронных сетей под действием алгоритмов на основе градиентного спуска представляет собой сложную задачу. Достаточно детальный и точный анализ возможен для линеаризованных сетей, например, обучаемых в режиме NTK или находящихся близко к сходимости. В этом случае обучение сводится к оптимизации плохо обусловленной квадратичной задачи, которую можно описать в терминах ее спектральных характеристик. Оказывается, что во многих реалистичных сценариях обучения сетей соответствующие спектральные распределения хорошо аппроксимируются степенными законами, и эти степенные законы могут быть теоретически выведены при некоторых предположениях. Со спектральными степенными законами сходимость оптимизации также подчиняется степенным законам, с разными показателями в зависимости от версии градиентного спуска. Особенно важен случай стохастического градиентного спуска с мини-пакетами и импульсом. Этот алгоритм характеризуется богатой фазовой диаграммой с двумя фазами сходимости. Мы выводим явное теоретическое условие устойчивости для мини-пакетного стохастического градиентного спуска и демонстрируем некоторые другие явления, например, то, что в некоторых задачах оптимальный параметр импульса имеет отрицательное значение. Website: https://vk.com/wall-220010299_40 |