RUS  ENG
Полная версия
ЖУРНАЛЫ // Проблемы передачи информации // Архив

Пробл. передачи информ., 2000, том 36, выпуск 4, страницы 117–127 (Mi ppi501)

Эта публикация цитируется в 2 статьях

Теория автоматов

Об оптимальном априорном времени обучения в задаче о “двуруком бандите”

А. В. Колногоров


Аннотация: Для задачи о “двуруком бандите”, рассматриваемой на конечном известном отрезке времени $T$, предложена стратегия с априори определяемым временем обучения. На основе уравнения баланса потерь устанавливается его точная асимптотическая оценка, порядок которой равен $T^{2/3}$ . Для близких распределений оценка меняется: для бернуллиевского “двурукого бандита” в этом случае время обучения приблизительно равно $T/3$.

УДК: 621.391.1-503.5

Поступила в редакцию: 22.06.1999
После переработки: 24.07.2000


 Англоязычная версия: Problems of Information Transmission, 2000, 36:4, 387–396

Реферативные базы данных:


© МИАН, 2024