Аннотация:
В данной статье рассматриваются современные методы обучения с подкреплением,
с акцентом на их применение в динамичных и сложных средах. Исследование начинается с анализа
основных подходов к обучению с подкреплением, таких как динамическое программирование,
методы Монте-Карло, методы временной разницы и градиенты политики. Особое внимание
уделяется методологии Generalized Adversarial Imitation Learning (GAIL) и ее влиянию на
оптимизацию стратегий агентов. Приведено исследование безмодельного обучения и выделены
критерии выбора агентов, способных работать в непрерывных пространствах действий и
состояний. Экспериментальная часть посвящена анализу обучения агентов с использованием
различных типов сенсоров, включая визуальные, и демонстрирует их способность адаптироваться
к условиям среды, несмотря на ограничения разрешения. Представлено сравнение результатов на
основе кумулятивной награды и длины эпизода, выявляющее улучшение производительности
агентов на поздних этапах обучения. Исследование подтверждает, что использование имитационного
обучения значительно повышает эффективность агента, сокращая временные затраты и улучшая
стратегии принятия решений. Настоящая работа открывает перспективы для дальнейшего изучения
механизмов улучшения разрешающей способности сенсоров и тонкой настройки гиперпараметров.
Ключевые слова:
обучение с подкреплением, интеллектуальные агенты, оптимальная траектория,
высокоавтоматизированные транспортные средства, обучение на основе политик, архитектуры
«актер-критик», имитационное обучение, сенсоры, непрерывные состояния, дискретные состояния,
PPO, SAC