A. Iskandar, A. Hammoud, B. Kovács, “Implicit understanding: decoding swarm behaviors in robots through deep inverse reinforcement learning”, Информатика и автоматизация, 2024, выпуск 23, том 5,страницы 1485

Робототехника, автоматизация и системы управления

Implicit understanding: decoding swarm behaviors in robots through deep inverse reinforcement learning

[Скрытый смысл: декодировка роевого поведения роботов с помощью глубокого обратного обучения с подкреплением]

A. Iskandar^a, A. Hammoud^b, B. Kovács^a

^a University of Miskolc
^b Federal State Budgetary Educational Institution of Higher Education “Kuban State Agrarian University named after I.T. Trubilin”

Аннотация: Использование обучения с подкреплением для создания коллективного поведения роевых роботов является распространенным подходом. Тем не менее, формулирование соответствующей функции вознаграждения, которая соответствовала бы конкретным целям, остается серьезной проблемой, особенно по мере увеличения сложности задач. В этой статье мы разрабатываем модель глубокого обратного обучения с подкреплением, чтобы раскрыть структуры вознаграждения, которые помогают автономным роботам выполнять задачи посредством демонстраций. Модели глубокого обратного обучения с подкреплением особенно хорошо подходят для сложных и динамичных сред, где может быть сложно указать заранее определенные функции вознаграждения. Наша модель может генерировать различное коллективное поведение в соответствии с требуемыми целями и эффективно справляется с непрерывными пространствами состояний и действий, обеспечивая детальное восстановление структур вознаграждения. Мы протестировали модель с помощью роботов E-puck в симуляторе Webots для решения двух задач: поиска рассредоточенных коробок и навигации к заданной позиции. Получение вознаграждения зависит от демонстраций, собранных интеллектуальным предварительно обученным роем, использующим обучение с подкреплением в качестве эксперта. Результаты показывают успешное получение вознаграждения как в сегментированной, так и в непрерывной демонстрации двух типов поведения — поиска и навигации. Наблюдая за изученным поведением роя экспертом и предложенной моделью, можно заметить, что модель не просто клонирует поведение эксперта, но генерирует свои собственные стратегии для достижения целей системы.

Ключевые слова: обратное обучение с подкреплением, функция вознаграждения, демонстрации, поисковое поведение, навигационное поведение.

УДК: 006.72

Поступила в редакцию: 29.05.2024

Язык публикации: английский

DOI: 10.15622/ia.23.5.8