RUS  ENG
Полная версия
ЖУРНАЛЫ // Проблемы передачи информации // Архив

Пробл. передачи информ., 2022, том 58, выпуск 2, страницы 66–91 (Mi ppi2369)

Теория автоматов

Пуассоновский двурукий бандит: новый подход

А. В. Колногоров

Новгородский государственный университет им. Ярослава Мудрого, кафедра прикладной математики и информатики

Аннотация: Рассматривается новый подход к задаче о двуруком бандите с непрерывным временем, в которой доходы описываются пуассоновскими процессами. Для этого, во-первых, горизонт управления разбивается на равные последовательные полуинтервалы, на которых стратегия остается постоянной, а доходы поступают пакетами, соответствующими этим полуинтервалам. Для нахождения оптимальной кусочно-постоянной байесовской стратегии и соответствующего ей байесовского риска получено рекуррентное разностное уравнение. Установлено существование предельной величины байесовского риска, если количество полуинтервалов неограниченно растет, и получено дифференциальное уравнение в частных производных для его нахождения. Во-вторых, в отличие от рассмотренных ранее постановок этой задачи мы исследуем зависимость стратегии от текущей предыстории управляемого процесса, а не от эволюции апостериорного распределения. Это позволяет снять требование конечности множества допустимых параметров, которое накладывалось в прежних постановках. Численные эксперименты показывают, что для практического нахождения байесовских и минимаксных стратегий и рисков достаточно разбить поступающие доходы на 30 пакетов. В случае минимаксной постановки показано, что оптимальная обработка поступающих доходов по одному не является более эффективной, чем оптимальная пакетная обработка, если горизонт управления неограниченно растет.

Ключевые слова: пуассоновский двурукий бандит, байесовский и минимаксный подходы, асимптотическая минимаксная теорема, пакетная обработка.

УДК: 621.391.1 : 519.713 : 517.977.5

Поступила в редакцию: 31.05.2021
После переработки: 09.04.2022
Принята к печати: 18.04.2022

DOI: 10.31857/S0555292322020065



Реферативные базы данных:


© МИАН, 2024