RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2022, том 508, страницы 50–69 (Mi danma337)

Эта публикация цитируется в 1 статье

ПЕРЕДОВЫЕ ИССЛЕДОВАНИЯ В ОБЛАСТИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Динамика и ландшафт функции потерь для глубоких нейронных сетей при обучении с квадратичной функцией потерь

М. С. Находновa, М. С. Кодрянb, Е. М. Лобачеваb, Д. С. Ветровab

a Институт искусственного интеллекта AIRI, Москва, Россия
b Национальный исследовательский университет "Высшая школа экономики", Москва, Россия

Аннотация: Знание свойств геометрии функции потерь позволяет успешно объяснять поведение нейронных сетей, динамику их обучения, взаимосвязь получаемых решений и гиперпараметров, таких как способ регуляризации, архитектура нейронной сети или расписание темпа обучения. В данной работе изучаются динамика обучения и поверхность стандартной кросс-энтропийной и популярной в последнее время квадратичной функций потерь для масштабно инвариантных сетей с нормализацией. Для устранения симметрий был произведен переход к оптимизации на сфере, который позволил обнаружить три фазы обучения в зависимости от размера шага обучения на сфере, обладающие принципиально разными свойствами, – фазу сходимости, фазу хаотического равновесия и фазу дестабилизированного обучения. Данные фазы наблюдаются для обеих исследованных функций потерь, однако при обучении с квадратичной функцией потерь нужны бо́льшие сети и более долгое обучение для перехода в фазу сходимости.

Ключевые слова: масштабная инвариантность, батч-нормализация, обучение нейронных сетей, оптимизация, квадратичная функция потерь.

УДК: 004.8

Статья представлена к публикации: А. А. Шананин
Поступило: 28.10.2022
После доработки: 28.10.2022
Принято к публикации: 01.11.2022

DOI: 10.31857/S2686954322070189


 Англоязычная версия: Doklady Mathematics, 2022, 106:suppl. 1, S43–S62

Реферативные базы данных:


© МИАН, 2024