Аннотация:
Рассматривается задача стохастического оптимального управления общего вида с малым винеровским шумом. Данная задача аппроксимируется с помощью марковского процесса принятия решений. Решение уравнения Беллмана на функцию ценности вычисляется с помощью метода итерации ценности (VI) в формате малорангового тензорного поезда (ТТ-VI). Предложена модификация данного алгоритма (ТТ-QI): нелинейный оператор Беллмана итеративно применяется сначала с использованием малоранговых алгебраических операций, а затем с использованием алгоритма крестовой аппроксимации. Показана более низкая, чем в основном методе, сложность на одну итерацию в случае малых ТТ-рангов тензоров вероятностей перехода. На примере задач управления обратным маятником и машинами Дубинса показано ускорение времени расчета оптимального регулятора в 3–10 раз по сравнению с существующим методом.
Библ. 13. Фиг. 6. Табл. 1.
Ключевые слова:динамическое программирование, оптимальное управление, марковские процессы принятия решений, малоранговые разложения.
УДК:517.977.54
Поступила в редакцию: 24.11.2020 Исправленный вариант: 24.11.2020 Принята в печать: 14.01.2021