Аннотация:
В статье рассматривается модель приспособления к неизвестной среде,
в которой обучающийся объект имеет несколько действий, а среда выдает
фиксированный выигрыш за каждое действие. Объект имеет конечное
время обучения и должен за это время получить наибольшую сумму
выигрышей. Среда заранее неизвестна, но задан класс сред. Эту модель
можно рассматривать как игру, в которой стратегиями являются алгоритмы
поведения объекта (помнящего уже полученные ответы среды)
и задание до начала работы объекта некоторой среды из допустимого
класса сред == стратегия “природы”. Для игры исследуются минимаксные
и максиминные точки и находится седловая точка на классе смешанных
стратегий.