Семинары: С. В. Козырев, Физические принципы в машинном обучении: как объяснить гроккинг

СЕМИНАРЫ


Общеинститутский семинар «Математика и ее приложения» Математического института им. В.А. Стеклова Российской академии наук 16 октября 2025 г. 16:00, г. Москва, конференц-зал МИАН (ул. Губкина, 8)

Физические принципы в машинном обучении: как объяснить гроккинг С. В. Козырев Математический институт им. В.А. Стеклова Российской академии наук, г. Москва
https://vk.com/video-222947497_456239135 https://youtu.be/gz_ddY6Yxro Аннотация: Будут обсуждаться физико-подобные модели в теории обучения. Гроккинг (отложенное обобщение) есть явление в теории обучения перепараметризованных систем (т.е. систем с большим числом параметров) для алгоритмических задач обучения (например, обучение умножению). При гроккинге система быстро запоминает обучающую выборку (например, половину таблицы умножения), но сначала даёт неправильные ответы на контрольной выборке (второй половине таблицы умножения). Затем, при продолжении процедуры стохастического градиентного спуска, происходит гроккинг (отложенное обобщение) - система начинает давать правильные ответы на вопросы из контрольной выборки. В докладе стохастический градиентный спуск будет рассматриваться как броуновское движение, и гроккинг получит объяснение как проявление второго закона термодинамики и формулы Эйринга кинетической теории. Изложение будет следовать препринту S. V. Kozyrev, How to explain grokking, arXiv:2412.18624.