Н. П. Кошманова, Д. С. Трифонов, В. Е. Павловский, “Управление манипулятором с помощью обучения с подкреплением”, Нелинейная динам., 2012, том 8, номер 4,страницы 689

Управление манипулятором с помощью обучения с подкреплением

Н. П. Кошманова, Д. С. Трифонов, В. Е. Павловский

Институт прикладной математики им. Келдыша РАН, 125047, Россия, г. Москва, Миусская пл., д. 4

Аннотация: Рассматривается метод построения системы управления роботом-манипулятором с использованием обучения с подкреплением. Система управления будет строиться с помощью обучающегося алгоритма, где информацией для обучения будут совершаемые действия и «награда», — величина, характеризующая качество работы системы управления. Целью обучения является построение алгоритма управления, максимизирующего суммарную награду за некоторый промежуток времени. Алгоритм обучения и построенная в результате его работы система управления протестированы для задачи уклонения манипулятора от летящего в него предмета.

Ключевые слова: обучение с подкреплением, манипулятор, управление.

УДК: 62-503.56

MSC: 68T40, 93C85

Поступила в редакцию: 17.07.2012
Исправленный вариант: 24.08.2012