![]() |
|
СЕМИНАРЫ |
|
Сходимость градиентных методов в условиях абсолютной и относительной неточности А. В. Гасников Университет Иннополис |
|||
Аннотация: Концепция относительной неточности была введена еще в 60-е годы прошлого века в работах Б.Т. Поляка. Реальная машинная арифметика как раз и приводит именно к такой концепции. Собственно, важный вопрос, ответ на который был получен еще Б.Т. Поляком в первых работах на эту тему: как будет сходиться градиентный метод в условиях относительной неточности в градиенте? Ответ оказался очень оптимистичным – если масштаб относительной неточности строго меньше единицы (то есть шум хотя и портит направление градиента, но не может его поменять на противоположное), то сходимость не меняется (для сильно выпуклых задач, остается линейная сходимость с немного более медленной скоростью). Однако обычные градиентные методы не оптимальны! Оптимальными методами являются ускоренные методы. И для них ответ на вопрос до сих пор остается открытым. В докладе мы поговорим о прогрессе достигнутом в последнее время в получении ответа на вопрос: как ускоренные методы сходятся в условиях абсолютно и относительно неточного градиента. В современных приложениях оптимизационных алгоритмов в обучении больших генеративных моделей часто используются распределенные варианты градиентных методов. Узким местом становится коммуникация. С целью сокращения времени коммуникации используют различные компрессии и квантизации. На практике часто наиболее эффективны смещенные компрессии градиентов. Математически это приводит как раз к относительной неточности в градиенте. Мы также поговорим о приложениях полученных результатов к решению обратных задач. |