Аннотация:
Оптимальное планирование работы аккумуляторной системы хранения энергии играет важную роль в распределенной энергетической системе. Как метод, основанный на данных, глубокое обучение с подкреплением не требует наличия системных знаний о динамической системе, позволяя найти оптимальное решение для нелинейной задачи оптимизации. В данном исследовании финансовые затраты на потребление энергии снижены за счет планирования энергии аккумуляторов с использованием метода глубокого обучения с подкреплением (RL). Обучение с подкреплением может адаптироваться к изменениям параметров оборудования и шумам в данных, в то время как смешанно-целочисленное линейное программирование (MILP) требует высокой точности прогнозирования выработки и спроса на электроэнергию, точных параметров оборудования для достижения хорошей производительности, а также больших вычислительных затрат для крупномасштабных промышленных приложений. Исходя из этого, можно предположить, что решение на основе глубокого RL способно превзойти классическую детерминированную модель оптимизации MILP. Сравниваются четыре современных RL-алгоритма для задачи управления аккумуляторной электростанцией: PPO, A2C, SAC, TD3. Согласно результатам моделирования, TD3 показывает наилучшие результаты, превосходя MILP на 5 % по экономии средств, а время решения задачи сокращается примерно в 3 раза.
Ключевые слова:обучение с подкреплением, система управления энергией, распределенная энергетическая система, численная оптимизация.