Аннотация:
Для задачи о “двуруком бандите”, рассматриваемой на конечном известном
отрезке времени $T$, предложена стратегия с априори определяемым временем
обучения. На основе уравнения баланса потерь устанавливается его точная
асимптотическая оценка, порядок которой равен $T^{2/3}$ . Для близких распределений
оценка меняется: для бернуллиевского “двурукого бандита” в этом случае
время обучения приблизительно равно $T/3$.
УДК:
621.391.1-503.5
Поступила в редакцию: 22.06.1999 После переработки: 24.07.2000