Эта публикация цитируется в	
			1 статье
				
			
				$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым
			
			Д. Б. Рохлин		 Южный федеральный университет, Институт математики, механики и компьютерных наук им. И. И. Воровича, Ростов-на-Дону, Россия
					
			Аннотация:
			Рассматривается игра между лидером и ведомым, в которой действия игроков влияют на стохастическую динамику процесса состояний 
$x_t$, 
$t\in\mathbf Z_+$. Игроки наблюдают свои выигрыши и состояние 
$x_t$ системы. Переходное ядро процесса 
$x_t$ и функции доходов оппонента им неизвестны. На каждом шаге игры лидер выбирает действие 
$a_t$ первым. При выборе действия 
$b_t$ ведомому известно 
$a_t$. Действия ведомого лидеру неизвестны (неинформированный лидер).
Каждый из игроков стремится максимизировать дисконтированный критерий, применяя алгоритм 
$Q$-обучения. Рандомизированные стратегии игроков определяются распределениями Больцмана, зависящими от 
$Q$-функций, обновляемых в процессе обучения. Особенность рассматриваемого алгоритма состоит в том, что при обновлении своей 
$Q$-функции ведомый считает, что действие лидера в следующем состоянии будет таким же, как в текущем (наивный ведомый). Показано, что для сходимости алгоритма достаточно существования детерминированных стационарных стратегий, порождающих неразложимую марковскую цепь. Предельное поведение 
$Q$-функций игроков при больших значениях времени описано в терминах управляемых марковских процессов. Распределения действий игроков сходятся к распределениям Больцмана, зависящим от предельных 
$Q$-функций.
				
			
Ключевые слова:
			$Q$-обучение, лидер, ведомый, стохастическая игра Штакельберга, дисконтированный критерий, распределение Больцмана.	
Поступила в редакцию: 18.06.2018
Исправленный вариант: 12.10.2018
Принята в печать: 18.10.2018	
			
DOI:
			10.4213/tvp5231