|
СЕМИНАРЫ |
Семинар «Математические основы искусственного интеллекта»
|
|||
|
Обучение с подкреплением на основе предпочтений Д. В. Беломестныйab a University of Duisburg-Essen b Национальный исследовательский университет "Высшая школа экономики", г. Москва |
|||
Аннотация: Алгоритмы обучения с подкреплением (RL) нацелены на максимизацию накопленной награды для подходяще выбранной функции вознаграждения. Однако разработка такой функции вознаграждения часто требует предварительных знаний о конкретной задаче, которые могут быть недоступны в явном виде. Чтобы снять эти проблемы, были предложены алгоритмы обучения с подкреплением на основе предпочтений, которые могут напрямую обучаться на основе предпочтений эксперта. В этом докладе я дам обзор алгоритмов обучения с подкреплением на основе предпочтений и проиллюстрирую их основные принципы на примерах из математических финансов. |