RUS  ENG
Полная версия
СЕМИНАРЫ

Семинар «Математические основы искусственного интеллекта»
30 апреля 2025 г. 17:00, г. Москва, МИАН, ул. Губкина, д. 8, конференц-зал, 9 этаж + Контур Толк


Угловой градиентный спуск

Д. А. Яроцкийab

a Сколковский институт науки и технологий
b Математический институт им. В.А. Стеклова Российской академии наук, г. Москва


https://vk.com/video-222947497_456239093
https://youtu.be/2TOov2v4YOA

Аннотация: Обучение современных нейронных сетей основано на стохастическом градиентном спуске (SGD). Хорошо известно, что добавление в градиентный спуск импульса часто ускоряет сходимость. Я расскажу, как обобщенный SGD с произвольной “стационарной линейной памятью” можно отождествить с контуром в комплексной плоскости: например, простому SGD отвечает окружность, SGD с импульсом — эллипс, а SGD с памятью размера 1 общего вида — профиль Жуковского. Особенно интересны контуры, имеющие угол: в многомерных плохообусловленных задачах (напр., нейронных сетях) соответствующие “угловые” алгоритмы ускоряют степенную сходимость (S)GD, умножая показатель степени на параметр угла. Идеальные угловые алгоритмы требуют бесконечной памяти, но хорошо приближаются алгоритмами с конечной памятью благодаря экспоненциально быстрым аппроксимациям степенных функций рациональными. Наш подход к анализу SGD основан на “пропагаторном разложении” функции потерь и последующем исследовании пропагаторов с помощью контурного интегрирования и спектральных и асимптотических методов; в частности, балансирование положительного влияния угла на “сигнальные” пропагаторы с отрицательным влиянием на “шумовые” пропагаторы порождает любопытную фазовую диаграмму достижимых ускорений SGD.


© МИАН, 2025