RUS  ENG
Полная версия
ЖУРНАЛЫ // Искусственный интеллект и принятие решений // Архив

Искусственный интеллект и принятие решений, 2023, выпуск 3, страницы 84–97 (Mi iipr40)

Машинное обучение, нейронные сети

Методы внутренней мотивации в задачах обучения с подкреплением на основе модели

А. К. Латышевa, А. И. Пановbc

a Московский физико-технический институт (национальный исследовательский университет), Долгопрудный, Московская область, Россия
b Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия
c Институт искусственного интеллекта AIRI, Москва, Россия

Аннотация: Обучение с подкреплением предлагает широкий спектр методов решения задач управления поведением интеллектуальных агентов. Однако актуальной остается проблема обучения агента в условиях редкого получения сигнала вознаграждения. Возможным решением является использование методов внутренней мотивации – идеи, пришедшей из психологии развития, объясняющей поведение человека в отсутствии внешних управляющих стимулов. В статье рассмотрены существующие методы определения внутренней мотивации, опирающиеся на обучаемую модель мира. Предложена систематизация методов, состоящая из трех классов, которые различаются по способу приложения модели к компонентам агента: вознаграждению, исследовательской стратегии и внутренним целям. Представлен единая схема описания архитектуры агента, использующего модель среды и внутреннюю мотивацию для ускорения обучения. Проанализированы перспективы развития новых методов в данном направлении.

Ключевые слова: внутренняя мотивация, обучение с подкреплением, модель мира, исследование среды.

DOI: 10.14357/20718594230309



Реферативные базы данных:


© МИАН, 2024