RUS  ENG
Полная версия
ЖУРНАЛЫ // Журнал вычислительной математики и математической физики // Архив

Ж. вычисл. матем. и матем. физ., 2021, том 61, номер 5, страницы 865–877 (Mi zvmmf11244)

Эта публикация цитируется в 1 статье

Оптимальное управление

TT-QI: ускоренная итерация функции ценности в формате тензорного поезда для задач стохастического оптимального управления

А. И. Бойкоa, И. В. Оселедецab, Г. Феррерa

a 121205 Москва, Большой бульвар, 30, стр. 1, Сколковский институт науки и технологий, Россия
b 119333 Москва, ул. Губкина, 8, ИВМ РАН, Россия

Аннотация: Рассматривается задача стохастического оптимального управления общего вида с малым винеровским шумом. Данная задача аппроксимируется с помощью марковского процесса принятия решений. Решение уравнения Беллмана на функцию ценности вычисляется с помощью метода итерации ценности (VI) в формате малорангового тензорного поезда (ТТ-VI). Предложена модификация данного алгоритма (ТТ-QI): нелинейный оператор Беллмана итеративно применяется сначала с использованием малоранговых алгебраических операций, а затем с использованием алгоритма крестовой аппроксимации. Показана более низкая, чем в основном методе, сложность на одну итерацию в случае малых ТТ-рангов тензоров вероятностей перехода. На примере задач управления обратным маятником и машинами Дубинса показано ускорение времени расчета оптимального регулятора в 3–10 раз по сравнению с существующим методом.
Библ. 13. Фиг. 6. Табл. 1.

Ключевые слова: динамическое программирование, оптимальное управление, марковские процессы принятия решений, малоранговые разложения.

УДК: 517.977.54

Поступила в редакцию: 24.11.2020
Исправленный вариант: 24.11.2020
Принята в печать: 14.01.2021

DOI: 10.31857/S0044466921050045


 Англоязычная версия: Computational Mathematics and Mathematical Physics, 2021, 61:5, 836–846

Реферативные базы данных:


© МИАН, 2024