RUS  ENG
Полная версия
ЖУРНАЛЫ // Теория вероятностей и ее применения // Архив

Теория вероятн. и ее примен., 2019, том 64, выпуск 1, страницы 53–74 (Mi tvp5231)

Эта публикация цитируется в 1 статье

$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым

Д. Б. Рохлин

Южный федеральный университет, Институт математики, механики и компьютерных наук им. И. И. Воровича, Ростов-на-Дону, Россия

Аннотация: Рассматривается игра между лидером и ведомым, в которой действия игроков влияют на стохастическую динамику процесса состояний $x_t$, $t\in\mathbf Z_+$. Игроки наблюдают свои выигрыши и состояние $x_t$ системы. Переходное ядро процесса $x_t$ и функции доходов оппонента им неизвестны. На каждом шаге игры лидер выбирает действие $a_t$ первым. При выборе действия $b_t$ ведомому известно $a_t$. Действия ведомого лидеру неизвестны (неинформированный лидер).
Каждый из игроков стремится максимизировать дисконтированный критерий, применяя алгоритм $Q$-обучения. Рандомизированные стратегии игроков определяются распределениями Больцмана, зависящими от $Q$-функций, обновляемых в процессе обучения. Особенность рассматриваемого алгоритма состоит в том, что при обновлении своей $Q$-функции ведомый считает, что действие лидера в следующем состоянии будет таким же, как в текущем (наивный ведомый). Показано, что для сходимости алгоритма достаточно существования детерминированных стационарных стратегий, порождающих неразложимую марковскую цепь. Предельное поведение $Q$-функций игроков при больших значениях времени описано в терминах управляемых марковских процессов. Распределения действий игроков сходятся к распределениям Больцмана, зависящим от предельных $Q$-функций.

Ключевые слова: $Q$-обучение, лидер, ведомый, стохастическая игра Штакельберга, дисконтированный критерий, распределение Больцмана.

Поступила в редакцию: 18.06.2018
Исправленный вариант: 12.10.2018
Принята в печать: 18.10.2018

DOI: 10.4213/tvp5231


 Англоязычная версия: Theory of Probability and its Applications, 2019, 64:1, 41–58

Реферативные базы данных:


© МИАН, 2024