Аннотация:
Стохастический градиентный спуск (SGD) является одним из множества методов оптимизации, используемых для решения задач машинного обучения. Практичность и простота подобных методов привлекают не только исследователей, но и инженеров машинного обучения из индустрии. Однако одна из главных слабостей таких методов заключается в необходимости ручной настройки размера шага для эффективного решения каждой конкретной оптимизационной задачи, функции потерь и данных. Стохастический градиентный спуск с размером шага им. Б.Т. Поляка (SPS) – это метод, который предлагает правило обновления, не требующее точной ручной настройки размера шага для решения задачи. Цель настоящей работы – расширить SPS с помощью таких приемов предобуславливания, как методы Хатчинсона, Adam и AdaGrad, что, в свою очередь, улучшит эффективность SPS в случае с плохой обусловленностью задачи и данных.
Библ. 31. Фиг. 5.
Ключевые слова:машинное обучение, оптимизация, адаптивный размер шага, размер шага им. Б.Т. Поляка, предобусловленность.
УДК:517.97
Поступила в редакцию: 02.11.2023 Исправленный вариант: 16.12.2023 Принята в печать: 20.12.2023