Семинары: Д. Н. Тяпкин, Рандомизированный оптимизм в обучении с подкреплением

СЕМИНАРЫ


Общероссийский семинар по оптимизации им. Б.Т. Поляка 7 октября 2022 г. 18:40, Москва, Онлайн, пятница, 19:00

Рандомизированный оптимизм в обучении с подкреплением Д. Н. Тяпкин
https://www.youtube.com/watch?v=sXHx31O04Oo Аннотация: Основным вопросом классической онлайн постановки обучения с подкреплением является exploration-exploitation дилемма. Классические результаты в этой области предлагают действовать согласно принципу "Оптимизм перед лицом неопределенности" – оценивать функцию ценности действия не средней ценностью, а верхней границей доверительного интервала на нее при помощи добавления бонусов. К сожалению, данный подход не является обобщаемым в любом сеттинге, кроме конечных и линейных MDP. Вместо этого подхода в серии статей Osband прелагает пользоваться рандомизацией, а именно – добавлением шума к полученным наградам, или же семплирование модели окружения из апостериорного распределения. Этот подход обобщаем на случай Deep RL, а потому интересен в практическом сообществе. В нашей работе https://arxiv.org/abs/2205.07704 мы представили оптимистичный алгоритм, который является почти теоретически оптимальным, и при этом обобщаем на случай глубинного обучения за счет его внутренней рандомизированной структуры и связи с Байесовским бутстрапом. Для доказательства оптимальности этого алгоритма было доказано анти-концентрационное неравенство для взвешенных сумм распределения Дирихле, которое представляет отдельный интерес.