Аннотация:
Обучение с подкреплением предлагает широкий спектр методов решения задач управления поведением интеллектуальных агентов. Однако актуальной остается проблема обучения агента в условиях редкого получения сигнала вознаграждения. Возможным решением является использование методов внутренней мотивации – идеи, пришедшей из психологии развития, объясняющей поведение человека в отсутствии внешних управляющих стимулов. В статье рассмотрены существующие методы определения внутренней мотивации, опирающиеся на обучаемую модель мира. Предложена систематизация методов, состоящая из трех классов, которые различаются по способу приложения модели к компонентам агента: вознаграждению, исследовательской стратегии и внутренним целям. Представлен единая схема описания архитектуры агента, использующего модель среды и внутреннюю мотивацию для ускорения обучения. Проанализированы перспективы развития новых методов в данном направлении.
Ключевые слова:внутренняя мотивация, обучение с подкреплением, модель мира, исследование среды.