![]() |
|
СЕМИНАРЫ |
Семинар «Математические основы искусственного интеллекта»
|
|||
|
Угловой градиентный спуск Д. А. Яроцкийab a Сколковский институт науки и технологий b Математический институт им. В.А. Стеклова Российской академии наук, г. Москва |
|||
Аннотация: Обучение современных нейронных сетей основано на стохастическом градиентном спуске (SGD). Хорошо известно, что добавление в градиентный спуск импульса часто ускоряет сходимость. Я расскажу, как обобщенный SGD с произвольной “стационарной линейной памятью” можно отождествить с контуром в комплексной плоскости: например, простому SGD отвечает окружность, SGD с импульсом — эллипс, а SGD с памятью размера 1 общего вида — профиль Жуковского. Особенно интересны контуры, имеющие угол: в многомерных плохообусловленных задачах (напр., нейронных сетях) соответствующие “угловые” алгоритмы ускоряют степенную сходимость (S)GD, умножая показатель степени на параметр угла. Идеальные угловые алгоритмы требуют бесконечной памяти, но хорошо приближаются алгоритмами с конечной памятью благодаря экспоненциально быстрым аппроксимациям степенных функций рациональными. Наш подход к анализу SGD основан на “пропагаторном разложении” функции потерь и последующем исследовании пропагаторов с помощью контурного интегрирования и спектральных и асимптотических методов; в частности, балансирование положительного влияния угла на “сигнальные” пропагаторы с отрицательным влиянием на “шумовые” пропагаторы порождает любопытную фазовую диаграмму достижимых ускорений SGD. |