RUS  ENG
Полная версия
ЖУРНАЛЫ // Автоматика и телемеханика // Архив

Автомат. и телемех., 2025, выпуск 1, страницы 80–98 (Mi at16478)

Интеллектуальные системы управления, aнализ данных

О гарантированной оценке отклонения от целевого множества в задаче управления при обучении с подкреплением

И. А. Чистяков

Московский государственный университет им. М.В. Ломоносова

Аннотация: Рассматривается задача целевого управления объектом, движение которого описывается системой дифференциальных уравнений специального вида, где присутствуют нелинейные члены, зависящие от фазовых переменных. На примере алгоритма Proximal Policy Optimization (PPO) показано, что с помощью обучения с подкреплением можно получить позиционную стратегию управления, решающую задачу приближенно. Эта стратегия далее аппроксимируется кусочно-аффинным управлением, для которого на основе метода динамического программирования строится гарантированная априорная оценка попадания траектории в целевое множество. Для этого осуществляется переход к вспомогательной задаче для кусочно-аффинной системы с помехой и вычисляется кусочно-квадратичная оценка функции цены как приближенное решение уравнения Гамильтона–Якоби–Беллмана.

Ключевые слова: нелинейная динамика, динамическое программирование, принцип сравнения, линеаризация, кусочно-квадратичная функция цены, обучение с подкреплением, алгоритм PPO, множество разрешимости.

Статья представлена к публикации членом редколлегии: П. В. Пакшин

Поступила в редакцию: 29.08.2023
После доработки: 14.10.2024
Принята к публикации: 29.10.2024

DOI: 10.31857/S0005231025010057



© МИАН, 2025