Аннотация:
Рассматривается метод построения системы управления роботом-манипулятором с использованием обучения с подкреплением. Система управления будет строиться с помощью обучающегося алгоритма, где информацией для обучения будут совершаемые действия и «награда», — величина, характеризующая качество работы системы управления. Целью обучения является построение алгоритма управления, максимизирующего суммарную награду за некоторый промежуток времени. Алгоритм обучения и построенная в результате его работы система управления протестированы для задачи уклонения манипулятора от летящего в него предмета.
Ключевые слова:обучение с подкреплением, манипулятор, управление.