В. Э. Большаков, А. Н. Алфимцев, “Иерархический метод кооперативного мультиагентного обучения с подкреплением в марковских процессах принятия решений”, Докл. РАН. Матем., информ., проц. упр., 2023, том 514, номер 2,страницы 250

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Иерархический метод кооперативного мультиагентного обучения с подкреплением в марковских процессах принятия решений

В. Э. Большаков, А. Н. Алфимцев

Московский государственный технический университет имени Н. Э. Баумана, Москва, Россия

Аннотация: В быстро развивающейся области обучения с подкреплением слияние иерархических и мультиагентных методов обучения преподносит уникальные трудности и открывает новые возможности. В данной статье рассматривается сочетание многоуровневого иерархического обучения с обнаружением промежуточных целей и мультиагентного обучения с подкреплением с воспроизведением ретроспективного опыта. Объединение таких подходов приводит к созданию единого метода иерархического мультиагентного обучения с подкреплением, который позволяет множеству агентов эффективно обучаться в сложных средах, в том числе в средах с редкими вознаграждениями. В работе демонстрируются результаты предлагаемого метода в одной из таких сред внутри стратегической игры StarCraft II, и проводится сравнение с другими существующими подходами. Предлагаемый метод разработан в парадигме централизованного обучения с децентрализованным исполнением, что позволяет достичь баланса между координацией и автономностью агентов.

Ключевые слова: мультиагентное обучение с подкреплением, иерархическое обучение, обнаружение промежуточных целей, воспроизведение ретроспективного опыта, централизованное обучение с децентрализованным исполнением, редкие вознаграждения.

УДК: 004.8

Статья представлена к публикации: А. А. Шананин
Поступило: 01.09.2023
После доработки: 29.09.2023
Принято к публикации: 18.10.2023

DOI: 10.31857/S2686954323601501