RUS  ENG
Полная версия
СЕМИНАРЫ



Физические принципы в машинном обучении: как объяснить гроккинг

С. В. Козырев

Математический институт им. В.А. Стеклова Российской академии наук, г. Москва


https://vk.com/video-222947497_456239135
https://youtu.be/gz_ddY6Yxro

Аннотация: Будут обсуждаться физико-подобные модели в теории обучения.
Гроккинг (отложенное обобщение) есть явление в теории обучения перепараметризованных систем (т.е. систем с большим числом параметров) для алгоритмических задач обучения (например, обучение умножению). При гроккинге система быстро запоминает обучающую выборку (например, половину таблицы умножения), но сначала даёт неправильные ответы на контрольной выборке (второй половине таблицы умножения). Затем, при продолжении процедуры стохастического градиентного спуска, происходит гроккинг (отложенное обобщение) - система начинает давать правильные ответы на вопросы из контрольной выборки.
В докладе стохастический градиентный спуск будет рассматриваться как броуновское движение, и гроккинг получит объяснение как проявление второго закона термодинамики и формулы Эйринга кинетической теории.
Изложение будет следовать препринту S. V. Kozyrev, How to explain grokking, arXiv:2412.18624.


© МИАН, 2025