Аннотация:
На конечном промежутке времени длины $T$ рассмотрена стратегия поведения в стационарной среде, в которой “обучение” и “управление” выполняются последовательно на отрезках времени фиксированной длины. При этом гарантированная скорость сходимости среднего дохода к его максимальному значению имеет порядок $T^{-2/3}$ в среднем квадратическом, а оптимальная продолжительность времени “обучения” – порядок $T^{2/3}$.
УДК:519.865
Статья представлена к публикации членом редколлегии:Ю. С. Попков