RUS  ENG
Полная версия
ЖУРНАЛЫ // Автоматика и телемеханика // Архив

Автомат. и телемех., 2022, выпуск 6, страницы 53–71 (Mi at15976)

Эта публикация цитируется в 4 статьях

Одновременное планирование и обучение в иерархической системе управления когнитивным агентом

А. И. Пановab

a Федеральный исследовательский центр “Информатика и управление” РАН, Москва
b Московский физико-технический институт (национальный исследовательский университет)

Аннотация: Задачи планирования поведения и обучения принятию решений в динамической среде в системах управления интеллектуальными агентами обычно разделяют и рассматривают отдельно. Предложена новая объединенная иерархическая постановка задачи одновременно планирования и обучения (SLAP) в контексте предметного обучения с подкреплением и описана архитектура когнитивного агента, решающего данную задачу. Предложен новый алгоритм обучения действиям в частично наблюдаемой внешней среде с использованием подкрепляющего сигнала, предметного описания состояний внешней среды и динамически обновляемых планов действий. Рассмотрены основные свойства и преимущества предложенного алгоритма, среди которых — отсутствие фиксированного когнитивного цикла, вследствие которого ранее приходилось использовать разделение подсистем планирования и обучения, возможность строить и обновлять модель взаимодействия со средой, что повышает эффективность обучения. Предложено теоретическое обоснование некоторых положений данного подхода, предложен модельный пример и продемонстрирован принцип работы SLAP агента при управлении беспилотным автомобилем.

Ключевые слова: обучение с подкреплением, планирование поведения, когнитивный агент, иерархическое планирование, системы управления, беспилотный транспорт, мобильные роботы.

Статья представлена к публикации членом редколлегии: О. П. Кузнецов

Поступила в редакцию: 31.10.2021
После доработки: 09.01.2022
Принята к публикации: 26.01.2022

DOI: 10.31857/S0005231022060058


 Англоязычная версия: Automation and Remote Control, 2022, 83:6, 869–883


© МИАН, 2024