Видеотека: А. А. Наумов, Математика обучения с подкреплением: от классических алгоритмов до RLHF

ВИДЕОТЕКА


Летняя школа «Современная математика» имени Виталия Арнольда, 2025 24 июля 2025 г. 15:30, Московская область, г. Дубна, дом отдыха «Ратмино»

Математика обучения с подкреплением: от классических алгоритмов до RLHF А. А. Наумов
Аннотация: Обучение с подкреплением — одно из видов машинного обучения. Ключевая особенность этого метода заключается в постоянном взаимодействии агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие. В рамках лекции мы обсудим математику, которая лежит в основе обучения с подкреплением, разберем базовые алгоритмы и поговорим про исследование среды и парадигму оптимизма. В завершающей части лекции мы обсудим обучение с подкреплением с обратной связью от человека (RLHF), которое играет ключевую роль в современных больших языковых моделях. Website: https://mccme.ru/dubna/2025/courses/naumov.html