Аннотация:
Рассматривается случайное блуждание на отрезке, допускающее управление в форме выбора направления для очередного шага. Задано множество стратегий управления, параметризованных конечномерными векторами. Требуется найти из этого множества такую стратегию, при которой плотность стационарного распределения марковской цепи, описывающей блуждание, максимально приближена к заданной эталонной плотности распределения. Постановка задачи отличается от классической схемы марковского процесса принятия решений тем, что отсутствует одношаговый доход. Содержательная трактовка задачи появляется в психологии, робототехнике, генетике. Предложен квазиградиентный алгоритм определения оптимальных значений параметров, основанный на оценках частных производных целевой функции по наблюдениям за фазовой траекторией. Приведены численные результаты работы алгоритма в примерах с различными классами стратегий и различными эталонными плотностями распределения.
Ключевые слова:управление марковской цепью с непрерывным множеством состояний; квазиградиентные алгоритмы; оценки производных по наблюдениям.