![]() |
|
ВИДЕОТЕКА |
Летняя школа «Современная математика» имени Виталия Арнольда, 2025
|
|||
|
Математика обучения с подкреплением: от классических алгоритмов до RLHF А. А. Наумов |
|||
Аннотация: Обучение с подкреплением — одно из видов машинного обучения. Ключевая особенность этого метода заключается в постоянном взаимодействии агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие. В рамках лекции мы обсудим математику, которая лежит в основе обучения с подкреплением, разберем базовые алгоритмы и поговорим про исследование среды и парадигму оптимизма. В завершающей части лекции мы обсудим обучение с подкреплением с обратной связью от человека (RLHF), которое играет ключевую роль в современных больших языковых моделях. Website: https://mccme.ru/dubna/2025/courses/naumov.html |