RUS  ENG
Полная версия
ВИДЕОТЕКА

Летняя школа «Современная математика» имени Виталия Арнольда, 2025
24 июля 2025 г. 15:30, Московская область, г. Дубна, дом отдыха «Ратмино»


Математика обучения с подкреплением: от классических алгоритмов до RLHF

А. А. Наумов



Аннотация: Обучение с подкреплением — одно из видов машинного обучения. Ключевая особенность этого метода заключается в постоянном взаимодействии агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие. В рамках лекции мы обсудим математику, которая лежит в основе обучения с подкреплением, разберем базовые алгоритмы и поговорим про исследование среды и парадигму оптимизма. В завершающей части лекции мы обсудим обучение с подкреплением с обратной связью от человека (RLHF), которое играет ключевую роль в современных больших языковых моделях.

Website: https://mccme.ru/dubna/2025/courses/naumov.html


© МИАН, 2025