Аннотация:
Рассмотрена адаптация стратегии UCB, впервые предложенной Дж. Басером для бернуллиевского двурукого бандита, на случай гауссовского многорукого бандита, описывающего пакетную обработку данных. Эта задача оптимального управления имеет классическую интерпретацию как игра с природой, в которой платежной функцией игрока является математическое ожидание потерь полного дохода, вызванное неполнотой информации. Цель управления сформулирована в минимаксной постановке. Для рассмотренной игры с природой построено инвариантное описание управления с горизонтом равным единице, позволяющее выполнять расчеты двумя способами: с использованием моделирования Монте-Карло и аналитически методом динамического программирования. Для различных конфигураций рассматриваемой игры с природой численными методами найдены седловые точки, характеризующие оптимальное управление и наихудшее распределение параметров многорукого бандита.
Ключевые слова:задача о многоруком бандите, гауссовский многорукий бандит, минимаксный подход, правило UCB, инвариантное описание, моделирование Монте-Карло, динамическое программирование.
УДК:519.832, 519.245 ББК:
22.18
Поступила в редакцию: 10.10.2021 Исправленный вариант: 03.03.2022 Принята в печать: 16.05.2022