А. И. Бойко, И. В. Оселедец, Г. Феррер, “TT-QI: ускоренная итерация функции ценности в формате тензорного поезда для задач стохастического оптимального управления”, Ж. вычисл. матем. и матем. физ., 2021, том 61, номер 5,страницы 865

Эта публикация цитируется в 1 статье

Оптимальное управление

TT-QI: ускоренная итерация функции ценности в формате тензорного поезда для задач стохастического оптимального управления

А. И. Бойко^a, И. В. Оселедец^ab, Г. Феррер^a

^a 121205 Москва, Большой бульвар, 30, стр. 1, Сколковский институт науки и технологий, Россия
^b 119333 Москва, ул. Губкина, 8, ИВМ РАН, Россия

Аннотация: Рассматривается задача стохастического оптимального управления общего вида с малым винеровским шумом. Данная задача аппроксимируется с помощью марковского процесса принятия решений. Решение уравнения Беллмана на функцию ценности вычисляется с помощью метода итерации ценности (VI) в формате малорангового тензорного поезда (ТТ-VI). Предложена модификация данного алгоритма (ТТ-QI): нелинейный оператор Беллмана итеративно применяется сначала с использованием малоранговых алгебраических операций, а затем с использованием алгоритма крестовой аппроксимации. Показана более низкая, чем в основном методе, сложность на одну итерацию в случае малых ТТ-рангов тензоров вероятностей перехода. На примере задач управления обратным маятником и машинами Дубинса показано ускорение времени расчета оптимального регулятора в 3–10 раз по сравнению с существующим методом.
Библ. 13. Фиг. 6. Табл. 1.

Ключевые слова: динамическое программирование, оптимальное управление, марковские процессы принятия решений, малоранговые разложения.

УДК: 517.977.54

Поступила в редакцию: 24.11.2020
Исправленный вариант: 24.11.2020
Принята в печать: 14.01.2021

DOI: 10.31857/S0044466921050045