RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2022, том 508, страницы 79–87 (Mi danma340)

ПЕРЕДОВЫЕ ИССЛЕДОВАНИЯ В ОБЛАСТИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Планирование расписаний в мультиагентных системах на базе метода обучения с подкреплением

И. К. Минашина, Р. А. Горбачев, Е. М. Захарова

Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный

Аннотация: Статья посвящена решению задачи планирования расписаний в мультиагентных системах в рамках конкурса Flatland 3. Основная цель конкурса – разработать алгоритм эффективного управления плотным движением на сложных железнодорожных сетях в соответствии с заданным графиком движения. Предложенное решение основано на использовании метода обучения с подкреплением (Reinforcement Learning). Для его адаптации к специфике задачи был разработан новый подход, основанный на методике структурирования вознаграждения, стимулирующий агента следовать своему расписанию. Архитектура предлагаемой модели основана на многоагентной вариации централизованного критика с обучением по типу Proximal Policy Optimization (PPO). Кроме того, была разработана и реализована стратегия обучения по расписанию. Это позволило агенту вовремя справляться с каждым уровнем сложности и тренировать модель в более сложных условиях. Данное решение заняло первое место в конкурсе Flatland 3 в треке Reinforcement Learning.

Ключевые слова: обучение с подкреплением, мультиагентные системы, железные дороги, Flatland, структурирование функции вознаграждений, обучение по расписанию, централизованный критик.

УДК: 004.8

Статья представлена к публикации: А. Л. Семёнов
Поступило: 28.10.2022
После доработки: 28.10.2022
Принято к публикации: 01.11.2022

DOI: 10.31857/S2686954322070177


 Англоязычная версия: Doklady Mathematics, 2022, 106:suppl. 1, S70–S78

Реферативные базы данных:


© МИАН, 2024