RUS  ENG
Полная версия
ЖУРНАЛЫ // Математическая теория игр и её приложения // Архив

МТИП, 2023, том 15, выпуск 3, страницы 88–106 (Mi mgta337)

Алгоритм зеркального спуска в задаче об одноруком бандите

Дмитрий Н. Шиян

Новгородский государственный университет им. Ярослава Мудрого 173003, Великий Новгород, ул. Б.С.-Петербургская, 41

Аннотация: Рассматривается применение алгоритма зеркального спуска (АЗС) в задаче об одноруком бандите в минимаксной постановке применительно к обработке данных. Данная задача известна также как игра с природой, в которой платежной функцией игрока является математическое ожидание полного дохода. Игроку необходимо в процессе управления определить наиболее эффективный метод из двух доступных и обеспечить его преимущественное применение. При этом априорная эффективность одного из методов известна. В данной статье рассмотрена модификация АЗС, позволяющая улучшить эффективность управления за счет использования дополнительной информации. Предложенная стратегия сохраняет характерное свойство стратегий для одноруких бандитов – если известное действие будет однажды применено, то оно будет применяться до конца управления. Рассмотрены модификации для алгоритма для одиночной обработки и для его пакетной версии. Пакетная обработка интересна тем, что полное время обработки определяется количеством пакетов, а не исходным количеством данных, при возможности обеспечить параллельную обработку данных в пакетах. Для предложенных алгоритмов с помощью моделирования методом Монте-Карло были вычислены оптимальные значения настраиваемых параметров и получены оценки минимаксного риска.

Ключевые слова: задача о двуруком бандите, задача об одноруком бандите, минимаксный подход, алгоритм зеркального спуска, EXP3, пакетная обработка.

УДК: 519.832, 519.245
ББК: 22.18

Поступила в редакцию: 04.04.2023
Исправленный вариант: 10.06.2023
Принята в печать: 01.09.2023



© МИАН, 2024