Аннотация:
В некоторых популярных задачах, приходящих из машинного обучения, шум в стохастических градиентах имеет тяжёлые хвосты распределения, например, в задачах обработки естественного языка и при обучении генеративно-состязательных моделей (GAN). В таких задачах стандартные стохастические методы типа SGD с моментумом работают как правило очень плохо. Вместо них используются методы с градиентным клиппингом и его вариации такие как Adam и другие. Кроме того, не удаётся доказать "хороших" гарантий на сходимость с большой вероятностью для методов без клиппинга при решении таких задач. В данном докладе будут представлены методы с клиппингом для решения задач (минимизации и вариационных неравенств) с тяжёлым шумом, а также будут обсуждаться особенности анализа таких методов.
Доклад базируется на результатах следующих статей: https://arxiv.org/pdf/2005.10785.pdf, https://arxiv.org/pdf/2106.05958.pdf, https://arxiv.org/pdf/2206.01095.pdf.