Аннотация:
Основным вопросом классической онлайн постановки обучения с подкреплением является exploration-exploitation дилемма. Классические результаты в этой области предлагают действовать согласно принципу "Оптимизм перед лицом неопределенности" – оценивать функцию ценности действия не средней ценностью, а верхней границей доверительного интервала на нее при помощи добавления бонусов. К сожалению, данный подход не является обобщаемым в любом сеттинге, кроме конечных и линейных MDP. Вместо этого подхода в серии статей Osband прелагает пользоваться рандомизацией, а именно – добавлением шума к полученным наградам, или же семплирование модели окружения из апостериорного распределения. Этот подход обобщаем на случай Deep RL, а потому интересен в практическом сообществе. В нашей работе https://arxiv.org/abs/2205.07704 мы представили оптимистичный алгоритм, который является почти теоретически оптимальным, и при этом обобщаем на случай глубинного обучения за счет его внутренней рандомизированной структуры и связи с Байесовским бутстрапом. Для доказательства оптимальности этого алгоритма было доказано анти-концентрационное неравенство для взвешенных сумм распределения Дирихле, которое представляет отдельный интерес.