Аннотация:
Рассматривается задача целевого управления объектом, движение которого описывается системой дифференциальных уравнений специального вида, где присутствуют нелинейные члены, зависящие от фазовых переменных. На примере алгоритма Proximal Policy Optimization (PPO) показано, что с помощью обучения с подкреплением можно получить позиционную стратегию управления, решающую задачу приближенно. Эта стратегия далее аппроксимируется кусочно-аффинным управлением, для которого на основе метода динамического программирования строится гарантированная априорная оценка попадания траектории в целевое множество. Для этого осуществляется переход к вспомогательной задаче для кусочно-аффинной системы с помехой и вычисляется кусочно-квадратичная оценка функции цены как приближенное решение уравнения Гамильтона–Якоби–Беллмана.
Ключевые слова:
нелинейная динамика, динамическое программирование, принцип сравнения, линеаризация, кусочно-квадратичная функция цены, обучение с подкреплением, алгоритм PPO, множество разрешимости.
Статья представлена к публикации членом редколлегии:П. В. Пакшин
Поступила в редакцию: 29.08.2023 После доработки: 14.10.2024 Принята к публикации: 29.10.2024