RUS  ENG
Полная версия
СЕМИНАРЫ

Общероссийский семинар по оптимизации им. Б.Т. Поляка
7 октября 2022 г. 18:40, Москва, Онлайн, пятница, 19:00


Рандомизированный оптимизм в обучении с подкреплением

Д. Н. Тяпкин


https://www.youtube.com/watch?v=sXHx31O04Oo

Аннотация: Основным вопросом классической онлайн постановки обучения с подкреплением является exploration-exploitation дилемма. Классические результаты в этой области предлагают действовать согласно принципу "Оптимизм перед лицом неопределенности" – оценивать функцию ценности действия не средней ценностью, а верхней границей доверительного интервала на нее при помощи добавления бонусов. К сожалению, данный подход не является обобщаемым в любом сеттинге, кроме конечных и линейных MDP. Вместо этого подхода в серии статей Osband прелагает пользоваться рандомизацией, а именно – добавлением шума к полученным наградам, или же семплирование модели окружения из апостериорного распределения. Этот подход обобщаем на случай Deep RL, а потому интересен в практическом сообществе. В нашей работе https://arxiv.org/abs/2205.07704 мы представили оптимистичный алгоритм, который является почти теоретически оптимальным, и при этом обобщаем на случай глубинного обучения за счет его внутренней рандомизированной структуры и связи с Байесовским бутстрапом. Для доказательства оптимальности этого алгоритма было доказано анти-концентрационное неравенство для взвешенных сумм распределения Дирихле, которое представляет отдельный интерес.


© МИАН, 2024