RUS  ENG
Полная версия
СЕМИНАРЫ



Методы, использующие градиентный клиппинг, для решения задач стохастической оптимизации и вариационных неравенств с тяжёлым шумом

Э. А. Горбунов


https://youtu.be/GBiVxpoBWsg

Аннотация: В некоторых популярных задачах, приходящих из машинного обучения, шум в стохастических градиентах имеет тяжёлые хвосты распределения, например, в задачах обработки естественного языка и при обучении генеративно-состязательных моделей (GAN). В таких задачах стандартные стохастические методы типа SGD с моментумом работают как правило очень плохо. Вместо них используются методы с градиентным клиппингом и его вариации такие как Adam и другие. Кроме того, не удаётся доказать "хороших" гарантий на сходимость с большой вероятностью для методов без клиппинга при решении таких задач. В данном докладе будут представлены методы с клиппингом для решения задач (минимизации и вариационных неравенств) с тяжёлым шумом, а также будут обсуждаться особенности анализа таких методов.

Доклад базируется на результатах следующих статей: https://arxiv.org/pdf/2005.10785.pdf, https://arxiv.org/pdf/2106.05958.pdf, https://arxiv.org/pdf/2206.01095.pdf.


© МИАН, 2024