Л. Цзян, “Градиентная маска и обобщения нейронной сети”, Интеллектуальные системы. Теория и приложения, 2022, том 26, выпуск 4,страницы 37

Часть 1. Общие проблемы теории интеллектуальных систем

Градиентная маска и обобщения нейронной сети

Л. Цзян

Московский государственный университет имени М. В. Ломоносова, механико-математический факультет

Аннотация: В рамках практического применения нейронных сетей количество параметров в сети намного больше, чем количество выборок в наборе данных, однако сеть по-прежнему имеет хорошие характеристики обобщения. Традиционно считается, что такие сверхпараметризованные и невыпуклые модели могут легко попадать в локальные минимумы при поиске оптимального решения и показывать плохую производительность обобщения, но на самом деле это не так. Хотя при некоторых условиях регуляризации возможно эффективно контролировать ошибку обобщения сети, по-прежнему трудно объяснить проблему обобщения для больших сетей. В данной статье мы определяем разницу между этапом переобучения и этапом изучения признаков путем количественной оценки влияния обновления одной выборки во время градиентного спуска на весь процесс обучения, выявив, что нейронные сети обычно меньше влияют на другие образцы на этапе переобучения. Кроме того, мы используем информационную матрицу Фишера для маскировки градиента, полученного в процессе обратного распространения, тем самым замедляя поведение нейронной сети при переобучении и улучшая производительность обобщения нейронной сети.

Ключевые слова: Нейронные сети, обобщение, переобучение, информация Фишера.