Аннотация:
Основная цель данного доклада — сделать обзор существующих стохастических методов оптимизации для решения задач минимизации суммы большого числа функций, которые возникают в машинном обучении. В первой части доклада будет представлен единообразный подход к анализу различных вариантов стохастического градиентного спуска (в том числе, методов редукции дисперсии) для сильно выпуклых и выпуклых задач. Затем мы перейдём к рассмотрению невыпуклых задач, обсудим общий взгляд на оптимальные методы для таких задач, а также поговорим о некоторых недавних результатах в этой области. В заключение, мы рассмотрим так называемые over-parameterized модели машинного обучения и про то, как сходятся известные методы для таких задач в сильно выпуклом, выпуклом и невыпуклых случаях.