А. К. Латышев, А. И. Панов, “Методы внутренней мотивации в задачах обучения с подкреплением на основе модели”, Искусственный интеллект и принятие решений, 2023, выпуск 3,страницы 84

Машинное обучение, нейронные сети

Методы внутренней мотивации в задачах обучения с подкреплением на основе модели

А. К. Латышев^a, А. И. Панов^bc

^a Московский физико-технический институт (национальный исследовательский университет), Долгопрудный, Московская область, Россия
^b Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия
^c Институт искусственного интеллекта AIRI, Москва, Россия

Аннотация: Обучение с подкреплением предлагает широкий спектр методов решения задач управления поведением интеллектуальных агентов. Однако актуальной остается проблема обучения агента в условиях редкого получения сигнала вознаграждения. Возможным решением является использование методов внутренней мотивации – идеи, пришедшей из психологии развития, объясняющей поведение человека в отсутствии внешних управляющих стимулов. В статье рассмотрены существующие методы определения внутренней мотивации, опирающиеся на обучаемую модель мира. Предложена систематизация методов, состоящая из трех классов, которые различаются по способу приложения модели к компонентам агента: вознаграждению, исследовательской стратегии и внутренним целям. Представлен единая схема описания архитектуры агента, использующего модель среды и внутреннюю мотивацию для ускорения обучения. Проанализированы перспективы развития новых методов в данном направлении.

Ключевые слова: внутренняя мотивация, обучение с подкреплением, модель мира, исследование среды.

DOI: 10.14357/20718594230309