Аннотация:
Поставленная задача представляет общий случай оптимального управления динамической, потенциально стохастической и частично наблюдаемой системой, для которой модель не обязательно доступна. В статье представлен анализ недостатков классических подходов теории управления и предлагается новый модифицированный алгоритм машинного обучения с подкреплением. Теория управления – область, которая изучалась очень долгое время и которая касается поведения динамических систем и того, как на нее влиять. Среди наиболее известных примеров – LQG (Линейно-квадратичное гауссовское управление) или ПИД-контроллеры. Большинство существующих подходов предполагают (аналитическое) знание динамической системы, и одним из ограничений является необходимость иметь возможность освободиться от априорных моделей. Мы концентрируем внимание на преимуществах использования моделей машинного обучения с подкреплением как перспективной стратегии управления сложными динамическими системами в условиях неопределенности.