Аннотация:
В задаче о марковских игровых автоматах, также известной как задача о многоруком бандите, рассматривается случай, когда отсутствует дисконтирование и присутствуют штрафы за переход от одного игрового автомата к другому, а марковские цепи, задающие эволюцию игровых автоматов, имеют конечное пространство состояний. Оптимальной считается стратегия, имеющая наибольшую среднюю прибыль за единицу времени на бесконечном временном отрезке. В статье доказано, что в данной задаче оптимальная стратегия может быть задана с помощью индекса Гиттинса в случае естественного предположения о неотрицательности штрафов.
Ключевые слова:
многокомпонентные системы, индекс Гиттинса, простое семейство марковских игровых автоматов, задача о многоруком бандите, марковский процесс принятия решений, управляемые марковские процессы, средняя прибыль за единицу времени на бесконечном временном отрезке, отсутствие дисконтирования, штрафы за переходы, оптимальная стратегия.
Поступила в редакцию: 26.03.2019 Принята в печать: 20.06.2019