RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 495–522 (Mi danma704)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Бар-код функции потерь: топологический показатель сложности оптимизации ландшафта функции потерь

С. А. Баранниковab, Д. С. Воронковаac, А. Мироненкоa, И. Трофимовa, А. Коротинac, Г. Сотниковa, Е. В. Бурнаевac

a Сколтех, Москва, Россия
b CNRS, I MJ, Paris City University, Париж, Франция
c AIRI - научно-исследовательский институт искусственного интеллекта, г. Москва

Аннотация: Обучение нейронной сети обычно основано на SGD. Однако понимание способности SGD сходится к хорошим локальным минимумам, учитывая невыпуклую природу функций потерь и сложные геометрические характеристики ландшафта функций потерь, остается ограниченным. В этой статье мы применяем методы топологического анализа данных к ландшафту функций потерь, чтобы получить представление о процессе обучения и обобщающей способности глубоких нейронных сетей. Мы используем топологию функции потерь, чтобы связать локальное поведение траекторий градиентного спуска с глобальными свойствами поверхности функции потерь. Для этой цели мы определяем численный показатель сложности топологических препятствий нейронной сети (Topological Obstruction score, TO-Score) с помощью робастных топологических инвариантов, бар-кодов функции потерь, которые характеризуют сложность градиентной оптимизации для оптимизации на основе градиента. Наши два основных наблюдения таковы: 1) бар-код функции потерь нейронной сети уменьшается с увеличением глубины и ширины, следовательно, топологические препятствия для обучения уменьшаются; 2) в определенных ситуациях существует связь между между длиной отрезков бар-кода и обобщающей способностью минимумов. Наши утверждения основаны на обширных экспериментах с полносвязными, сверточными и трансформерными архитектурами и несколькими наборами данных, включая MNIST, FMNIST, CIFAR10, CIFAR100, SVHN и многозъянный текстовый набор данных OSCAR.

Ключевые слова: топологический анализ данных, глубокие нейронные сети, поверхность функции потерь, SGD, персистентные бар-коды.

УДК: 519.6

Поступило: 21.08.2025
Принято к публикации: 28.09.2025

DOI: 10.7868/S2686954325070422



Реферативные базы данных:


© МИАН, 2025