М. Г. Городничев, “О применении обучения с подкреплением в задаче выбора оптимальной траектории движения”, Известия Кабардино-Балкарского научного центра РАН, 2025, том 27, выпуск 2,страницы 86

Информатика и информационные процессы

О применении обучения с подкреплением в задаче выбора оптимальной траектории движения

М. Г. Городничев

Московский технический университет связи и информатики, 111024, Россия, Москва, ул. Авиамоторная, 8А

Аннотация: В данной статье рассматриваются современные методы обучения с подкреплением, с акцентом на их применение в динамичных и сложных средах. Исследование начинается с анализа основных подходов к обучению с подкреплением, таких как динамическое программирование, методы Монте-Карло, методы временной разницы и градиенты политики. Особое внимание уделяется методологии Generalized Adversarial Imitation Learning (GAIL) и ее влиянию на оптимизацию стратегий агентов. Приведено исследование безмодельного обучения и выделены критерии выбора агентов, способных работать в непрерывных пространствах действий и состояний. Экспериментальная часть посвящена анализу обучения агентов с использованием различных типов сенсоров, включая визуальные, и демонстрирует их способность адаптироваться к условиям среды, несмотря на ограничения разрешения. Представлено сравнение результатов на основе кумулятивной награды и длины эпизода, выявляющее улучшение производительности агентов на поздних этапах обучения. Исследование подтверждает, что использование имитационного обучения значительно повышает эффективность агента, сокращая временные затраты и улучшая стратегии принятия решений. Настоящая работа открывает перспективы для дальнейшего изучения механизмов улучшения разрешающей способности сенсоров и тонкой настройки гиперпараметров.

Ключевые слова: обучение с подкреплением, интеллектуальные агенты, оптимальная траектория, высокоавтоматизированные транспортные средства, обучение на основе политик, архитектуры «актер-критик», имитационное обучение, сенсоры, непрерывные состояния, дискретные состояния, PPO, SAC

УДК: 004.852

MSC: 68T07

Поступила в редакцию: 25.03.2025
Исправленный вариант: 26.03.2025
Принята в печать: 09.04.2025

DOI: 10.35330/1991-6639-2025-27-2-86-102