В. Д. Руденко, Н. Е. Юдин, А. А. Васин, “Обзор выпуклой оптимизации марковских процессов принятия решений”, Компьютерные исследования и моделирование, 2023, том 15, выпуск 2,страницы 329

МАТЕМАТИЧЕСКИЕ ОСНОВЫ И ЧИСЛЕННЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ

Обзор выпуклой оптимизации марковских процессов принятия решений

В. Д. Руденко^ab, Н. Е. Юдин^ac, А. А. Васин^d

^a Московский физико-технический институт (национальный исследовательский университет), Россия, 141701, Московская обл., г. Долгопрудный, Институтский пер., 9
^b Национальный исследовательский университет «Высшая школа экономики», Россия, 109028, г. Москва, Покровский бульвар, д. 11
^c Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Россия, 119333, г. Москва, ул. Вавилова, д. 44, корп. 2
^d Московский государственный университет имени М. В. Ломоносова, Россия, 119991, г. Москва, Ленинские горы, д. 1, стр. 52

Аннотация: В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу $Q$-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию $Q$-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.

Ключевые слова: MDP, выпуклая оптимизация, $Q$-обучение, линейное программирование, методы градиента политики.

УДК: 519.8

Поступила в редакцию: 19.02.2023
Принята в печать: 23.02.2023

DOI: 10.20537/2076-7633-2023-15-2-329-353