Аннотация:
В быстро развивающейся области обучения с подкреплением слияние иерархических и мультиагентных методов обучения преподносит уникальные трудности и открывает новые возможности. В данной статье рассматривается сочетание многоуровневого иерархического обучения с обнаружением промежуточных целей и мультиагентного обучения с подкреплением с воспроизведением ретроспективного опыта. Объединение таких подходов приводит к созданию единого метода иерархического мультиагентного обучения с подкреплением, который позволяет множеству агентов эффективно обучаться в сложных средах, в том числе в средах с редкими вознаграждениями. В работе демонстрируются результаты предлагаемого метода в одной из таких сред внутри стратегической игры StarCraft II, и проводится сравнение с другими существующими подходами. Предлагаемый метод разработан в парадигме централизованного обучения с децентрализованным исполнением, что позволяет достичь баланса между координацией и автономностью агентов.
Ключевые слова:мультиагентное обучение с подкреплением, иерархическое обучение, обнаружение промежуточных целей, воспроизведение ретроспективного опыта, централизованное обучение с децентрализованным исполнением, редкие вознаграждения.
УДК:
004.8
Статья представлена к публикации:А. А. Шананин Поступило: 01.09.2023 После доработки: 29.09.2023 Принято к публикации: 18.10.2023