Аннотация:
Иллюстрируется подход к созданию интеллектуальных систем управления объектами с использованием
машинного обучения с подкреплением на примере системы управления перекрестком. Описывается имитационная
модель перекрестка, выбранная в качестве среды обучения. Приводятся результаты сравнительного анализа эффективности работы различных алгоритмов обучения. Приводятся результаты применения градиента политики Монте-Карло
для обучения модели перекрестка.
Ключевые слова:транспортная сеть, машинное обучение с подкреплением, нейронные сети, пропускная способность, безопасность, системы управления, градиент политики.