![]() |
|
СЕМИНАРЫ |
|
Управление движением космических аппаратов с использованием методов обучения с подкреплением М. Г. Широбоков Институт прикладной математики им. М.В. Келдыша Российской академии наук, г. Москва |
|||
Аннотация: В последние годы раздел теории оптимальности Беллмана, известный как обучение с подкреплением, обогатился эффективными алгоритмами, которые нашли широкое применение в различных областях, включая механику космического полета. Эти методы основаны на алгоритмах приближенного динамического программирования, методах оптимизации функций с большим числом переменных и теории частично наблюдаемых марковских процессов принятия решений. Их преимущество перед многими другими методами управления заключается в значительном сокращении математических предположений и широком охвате решаемых задач. Многочисленные примеры демонстрируют, что стратегии управления, разработанные с использованием этих методов, способны адаптироваться к неизвестным или изменяющимся параметрам аппарата и внешней среды. Авторский обзор применения этих методов к задачам управления космическими аппаратами выявил общую методологию построения подобных стратегий. В докладе представлена общая методология преобразования задачи оптимального управления механическими системами в задачу машинного обучения с подкреплением, а также программная архитектура для численного решения таких задач. Рассматривается задача поддержания движения вблизи неустойчивых гало-орбит в окрестности лунных точек либрации. Изучаются как чисто нейросетевые модели управления аппаратом, так и гибридные модели, где основой выступает метод мод Флоке или разработанный автором метод Коши-Грина, а нейронная сеть используется в качестве аддитивной компоненты для оптимизации управления. Работа выполнена при финансовой поддержке Российского научного фонда (проект №24-71-00032). |