RUS  ENG
Полная версия
ЖУРНАЛЫ // Математическая теория игр и её приложения // Архив

МТИП, 2022, том 14, выпуск 2, страницы 3–30 (Mi mgta299)

Адаптация стратегии UCB Дж. Басера для гауссовского многорукого бандита

Сергей В. Гарбарь, Александр В. Колногоров

Новгородский государственный университет им. Ярослава Мудрого, 173003, Великий Новгород, ул. Б.С.-Петербургская, 41

Аннотация: Рассмотрена адаптация стратегии UCB, впервые предложенной Дж. Басером для бернуллиевского двурукого бандита, на случай гауссовского многорукого бандита, описывающего пакетную обработку данных. Эта задача оптимального управления имеет классическую интерпретацию как игра с природой, в которой платежной функцией игрока является математическое ожидание потерь полного дохода, вызванное неполнотой информации. Цель управления сформулирована в минимаксной постановке. Для рассмотренной игры с природой построено инвариантное описание управления с горизонтом равным единице, позволяющее выполнять расчеты двумя способами: с использованием моделирования Монте-Карло и аналитически методом динамического программирования. Для различных конфигураций рассматриваемой игры с природой численными методами найдены седловые точки, характеризующие оптимальное управление и наихудшее распределение параметров многорукого бандита.

Ключевые слова: задача о многоруком бандите, гауссовский многорукий бандит, минимаксный подход, правило UCB, инвариантное описание, моделирование Монте-Карло, динамическое программирование.

УДК: 519.832, 519.245
ББК: 22.18

Поступила в редакцию: 10.10.2021
Исправленный вариант: 03.03.2022
Принята в печать: 16.05.2022



Реферативные базы данных:


© МИАН, 2024