Аннотация:
Знание свойств геометрии функции потерь позволяет успешно объяснять поведение нейронных сетей, динамику их обучения, взаимосвязь получаемых решений и гиперпараметров, таких как способ регуляризации, архитектура нейронной сети или расписание темпа обучения. В данной работе изучаются динамика обучения и поверхность стандартной кросс-энтропийной и популярной в последнее время квадратичной функций потерь для масштабно инвариантных сетей с нормализацией. Для устранения симметрий был произведен переход к оптимизации на сфере, который позволил обнаружить три фазы обучения в зависимости от размера шага обучения на сфере, обладающие принципиально разными свойствами, – фазу сходимости, фазу хаотического равновесия и фазу дестабилизированного обучения. Данные фазы наблюдаются для обеих исследованных функций потерь, однако при обучении с квадратичной функцией потерь нужны бо́льшие сети и более долгое обучение для перехода в фазу сходимости.
Ключевые слова:масштабная инвариантность, батч-нормализация, обучение нейронных сетей, оптимизация, квадратичная функция потерь.
УДК:
004.8
Статья представлена к публикации:А. А. Шананин Поступило: 28.10.2022 После доработки: 28.10.2022 Принято к публикации: 01.11.2022