Аннотация:
Задача о поведении в случайной среде, известная как задача о двуруком бандите, рассматривается в робастной (минимаксной) постановке. Предложена стратегия параллельного управления, которая в средах с нормально распределенными доходами, имеющими единичные дисперсии, обеспечивает управление, сколь угодно близкое к оптимальному. Получено инвариантное рекуррентное уравнение для нахождения минимаксных стратегии и риска, которые ищутся как байесовские, соответствующие наихудшему априорному распределению. Это позволяет улучшить известные оценки минимаксного риска Фогеля (W. Vogel). Численный анализ показывает, что стратегия хорошо функционирует в средах с распределениями, отличающимися от нормальных (например, бинарных).
Статья представлена к публикации членом редколлегии:А. В. Назин