RUS  ENG
Полная версия
ЖУРНАЛЫ // Russian Journal of Nonlinear Dynamics // Архив

Нелинейная динам., 2011, том 7, номер 4, страницы 859–875 (Mi nd297)

Эта публикация цитируется в 2 статьях

Обучение с подкреплением спайковой нейронной сети в задаче управления агентом в дискретной виртуальной среде

О. Ю. Синявский, А. И. Кобрин

Национальный исследовательский университет «Московский энергетический институт», 111250, Россия, г. Москва, Красноказарменная ул., д. 14

Аннотация: В работе описываются методы обучения с подкреплением спайковой нейронной сети, управляющей роботом или интеллектуальным агентом. Применение спайковых нейронов в качестве базовых элементов сети позволяет использовать как пространственную, так и временную структуру входной сенсорной информации. Обучение сети производится с помощью подкрепляющих сигналов, идущих из внешней среды и отражающих степень успешности недавно выполненных агентом действий. Максимизация получаемого подкрепления ведется путем модулированной минимизации информационной энтропии функционирования нейрона, которая зависит от весов нейронов. Полученные законы изменения весов близки к явлениям синаптической пластичности, наблюдающейся в реальных нейронах. Работа алгоритма обучения с подкреплением проверяется на тестовой задаче поиска ресурсов агентом в дискретной виртуальной среде.

Ключевые слова: спайковый нейрон, адаптивное управление, обучение с подкреплением, информационная энтропия.

УДК: 004.032.26, 004.852

MSC: 68T05, 68Q32

Поступила в редакцию: 06.06.2011
Принята в печать: 30.09.2011



© МИАН, 2024