Аннотация:
Задачи планирования поведения и обучения принятию решений в динамической среде в системах управления интеллектуальными агентами обычно разделяют и рассматривают отдельно. Предложена новая объединенная иерархическая постановка задачи одновременно планирования и обучения (SLAP) в контексте предметного обучения с подкреплением и описана архитектура когнитивного агента, решающего данную задачу. Предложен новый алгоритм обучения действиям в частично наблюдаемой внешней среде с использованием подкрепляющего сигнала, предметного описания состояний внешней среды и динамически обновляемых планов действий. Рассмотрены основные свойства и преимущества предложенного алгоритма, среди которых — отсутствие фиксированного когнитивного цикла, вследствие которого ранее приходилось использовать разделение подсистем планирования и обучения, возможность строить и обновлять модель взаимодействия со средой, что повышает эффективность обучения. Предложено теоретическое обоснование некоторых положений данного подхода, предложен модельный пример и продемонстрирован принцип работы SLAP агента при управлении беспилотным автомобилем.
Ключевые слова:обучение с подкреплением, планирование поведения, когнитивный агент, иерархическое планирование, системы управления, беспилотный транспорт, мобильные роботы.
Статья представлена к публикации членом редколлегии:О. П. Кузнецов
Поступила в редакцию: 31.10.2021 После доработки: 09.01.2022 Принята к публикации: 26.01.2022