Аннотация:
Рассмотрена модель стимулирования с марковской динамикой и дисконтированными критериями оптимальности в случае дискретного времени и бесконечного горизонта планирования. В указанной модели регулятор оказывает экономическое воздействие на исполнителя, выбирая стимулирующую функцию, зависящую от состояния системы и действий исполнителя, который использует позиционные стратегии управления. Динамика системы, доходы регулятора и затраты исполнителя зависят от состояния системы и действий исполнителя. Показано, что отыскание приближенного решения (обратной) игры Штакельберга сводится к решению задачи оптимального управления с критерием, равным разности между доходом регулятора и затратами исполнителя. При этом $\varepsilon$-оптимальная стратегия регулятора состоит в том, чтобы экономически мотивировать исполнителя следовать данной оптимальной стратегии управления.
Ключевые слова:двухуровневая модель стимулирования, обратная игра Штакельберга, дисконтированный критерий оптимальности, уравнение Беллмана.
Статья представлена к публикации членом редколлегии:Е. Я. Рубинович