Эта публикация цитируется в
1 статье
$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым
Д. Б. Рохлин Южный федеральный университет, Институт математики, механики и компьютерных наук им. И. И. Воровича, Ростов-на-Дону, Россия
Аннотация:
Рассматривается игра между лидером и ведомым, в которой действия игроков влияют на стохастическую динамику процесса состояний
$x_t$,
$t\in\mathbf Z_+$. Игроки наблюдают свои выигрыши и состояние
$x_t$ системы. Переходное ядро процесса
$x_t$ и функции доходов оппонента им неизвестны. На каждом шаге игры лидер выбирает действие
$a_t$ первым. При выборе действия
$b_t$ ведомому известно
$a_t$. Действия ведомого лидеру неизвестны (неинформированный лидер).
Каждый из игроков стремится максимизировать дисконтированный критерий, применяя алгоритм
$Q$-обучения. Рандомизированные стратегии игроков определяются распределениями Больцмана, зависящими от
$Q$-функций, обновляемых в процессе обучения. Особенность рассматриваемого алгоритма состоит в том, что при обновлении своей
$Q$-функции ведомый считает, что действие лидера в следующем состоянии будет таким же, как в текущем (наивный ведомый). Показано, что для сходимости алгоритма достаточно существования детерминированных стационарных стратегий, порождающих неразложимую марковскую цепь. Предельное поведение
$Q$-функций игроков при больших значениях времени описано в терминах управляемых марковских процессов. Распределения действий игроков сходятся к распределениям Больцмана, зависящим от предельных
$Q$-функций.
Ключевые слова:
$Q$-обучение, лидер, ведомый, стохастическая игра Штакельберга, дисконтированный критерий, распределение Больцмана. Поступила в редакцию: 18.06.2018
Исправленный вариант: 12.10.2018
Принята в печать: 18.10.2018
DOI:
10.4213/tvp5231