Аннотация:
Обучение нейронной сети обычно основано на SGD. Однако понимание способности SGD сходится к хорошим локальным минимумам, учитывая невыпуклую природу функций потерь и сложные геометрические характеристики ландшафта функций потерь, остается ограниченным. В этой статье мы применяем методы топологического анализа данных к ландшафту функций потерь, чтобы получить представление о процессе обучения и обобщающей способности глубоких нейронных сетей. Мы используем топологию функции потерь, чтобы связать локальное поведение траекторий градиентного спуска с глобальными свойствами поверхности функции потерь. Для этой цели мы определяем численный показатель сложности топологических препятствий нейронной сети (Topological Obstruction score, TO-Score) с помощью робастных топологических инвариантов, бар-кодов функции потерь, которые характеризуют сложность градиентной оптимизации для оптимизации на основе градиента. Наши два основных наблюдения таковы: 1) бар-код функции потерь нейронной сети уменьшается с увеличением глубины и ширины, следовательно, топологические препятствия для обучения уменьшаются; 2) в определенных ситуациях существует связь между между длиной отрезков бар-кода и обобщающей способностью минимумов. Наши утверждения основаны на обширных экспериментах с полносвязными, сверточными и трансформерными архитектурами и несколькими наборами данных, включая MNIST, FMNIST, CIFAR10, CIFAR100, SVHN и многозъянный текстовый набор данных OSCAR.
Ключевые слова:
топологический анализ данных, глубокие нейронные сети, поверхность функции потерь, SGD, персистентные бар-коды.
УДК:519.6
Поступило: 21.08.2025 Принято к публикации: 28.09.2025