Аннотация:
Рассматривается задача о гауссовском одноруком бандите, которая возникает при оптимизации пакетной обработки данных, если имеются два альтернативных метода обработки с априори известной эффективностью первого метода. В процессе обработки необходимо определить более эффективный метод и обеспечить его преимущественное использование. Данная задача оптимального управления имеет интерпретацию как игра с природой. Мы исследуем случаи известной и априори неизвестной дисперсии дохода, соответствующей второму методу. Цель управления рассматривается в минимаксной постановке, а для ее обеспечения используются стратегии UCB. Во всех исследуемых случаях получены инвариантные описания управления на единичном горизонте, которые зависят только от количества пакетов, на которые разбиты данные, но не от их полного числа. Эти описания позволяют определить приблизительно оптимальные параметры стратегий с помощью моделирования методом Монте-Карло. Численные результаты показывают высокую эффективность предложенных стратегий UCB.