Аннотация:
Рассматривается новый подход к задаче о двуруком бандите с непрерывным временем, в которой доходы описываются пуассоновскими процессами. Для этого, во-первых, горизонт управления разбивается на равные последовательные полуинтервалы, на которых стратегия остается постоянной, а доходы поступают пакетами, соответствующими этим полуинтервалам. Для нахождения оптимальной кусочно-постоянной байесовской стратегии и соответствующего ей байесовского риска получено рекуррентное разностное уравнение. Установлено существование предельной величины байесовского риска, если количество полуинтервалов неограниченно растет, и получено дифференциальное уравнение в частных производных для его нахождения. Во-вторых, в отличие от рассмотренных ранее постановок этой задачи мы исследуем зависимость стратегии от текущей предыстории управляемого процесса, а не от эволюции апостериорного распределения. Это позволяет снять требование конечности множества допустимых параметров, которое накладывалось в прежних постановках. Численные эксперименты показывают, что для практического нахождения байесовских и минимаксных стратегий и рисков достаточно разбить поступающие доходы на 30 пакетов. В случае минимаксной постановки показано, что оптимальная обработка поступающих доходов по одному не является более эффективной, чем оптимальная пакетная обработка, если горизонт управления неограниченно растет.