Аннотация:
Рассматривается задача управления полумарковским объектом, когда переходные вероятности в моменты скачков и распределения времени пребывания в каждом состоянии зависят от неизвестного параметра. Цель управления - максимизировать средний доход за единицу времени. С помощью оценок минимального контраста осуществляется синтез адаптивного управления и изучаются асимптотические свойства оценок неизвестного параметра, формируемых в процессе управления. Указываются достаточные условия, при которых адаптивное управление сходится к оптимальному. В качестве вспомогательного анализируется случай полной информации.