RUS  ENG
Полная версия
ЖУРНАЛЫ // Математическая теория игр и её приложения // Архив

МТИП, 2023, том 15, выпуск 4, страницы 3–27 (Mi mgta328)

Стратегии UCB и оптимизация пакетной обработки в задаче об одноруком бандите

Сергей В. Гарбарь, Александр В. Колногоров, Алексей Н. Лазутченко

Новгородский государственный университет им. Ярослава Мудрого, 173003, Великий Новгород, ул. Б.С.-Петербургская, 41

Аннотация: Рассматривается задача о гауссовском одноруком бандите, которая возникает при оптимизации пакетной обработки данных, если имеются два альтернативных метода обработки с априори известной эффективностью первого метода. В процессе обработки необходимо определить более эффективный метод и обеспечить его преимущественное использование. Данная задача оптимального управления имеет интерпретацию как игра с природой. Мы исследуем случаи известной и априори неизвестной дисперсии дохода, соответствующей второму методу. Цель управления рассматривается в минимаксной постановке, а для ее обеспечения используются стратегии UCB. Во всех исследуемых случаях получены инвариантные описания управления на единичном горизонте, которые зависят только от количества пакетов, на которые разбиты данные, но не от их полного числа. Эти описания позволяют определить приблизительно оптимальные параметры стратегий с помощью моделирования методом Монте-Карло. Численные результаты показывают высокую эффективность предложенных стратегий UCB.

Ключевые слова: гауссовский однорукий бандит, минимаксный подход, правило UCB, инвариантное описание, моделирование Монте-Карло.

УДК: 519.832, 519.245
ББК: 22.18

Поступила в редакцию: 07.05.2023
Исправленный вариант: 24.10.2023
Принята в печать: 01.12.2023



© МИАН, 2024