Аннотация:
Обсудим несколько недавних работ, обсуждающих явление гроккинга (отложенного обобщения) в теории обучения, при котором исчезает переобучение, то есть нейросеть выучивается обобщать. Основным рассматриваемым в данных работах примером является обучение алгоритмам модулярной арифметики (сложению и другим операциям в поле вычетов по модулю простого числа). При этом удаётся из набора параметров нейросети восстановить алгоритм, который реализует арифметические операции. Это обсуждается как явление возникновения структуры (emergent phenomenon) для нейросети.
|