С. А. Князятов, Г. Г. Малинецкий, “Решение задачи распознавания блефа в игре «верю – не верю» с помощью алгоритмов обучения с подкреплением”, Препринты ИПМ им. М. В. Келдыша, 2018,170, 21 стр.

Эта публикация цитируется в 2 статьях

Решение задачи распознавания блефа в игре «верю – не верю» с помощью алгоритмов обучения с подкреплением

С. А. Князятов, Г. Г. Малинецкий

Аннотация: В работе исследуется возможность построения алгоритма на основе обучения с подкреплением для задачи распознавания и использования блефа в карточной игре «верю — не верю». Построенный алгоритм обладает «интеллектуальной способностью» перестраивать свою стратегию поведения и оценивать возможные ходы, основываясь на предыдущем опыте. Данный класс алгоритмов используется для принятия решений в быстроменяющихся средах. Описаны способ и результаты сравнения алгоритмов между собой, результаты игр лучших алгоритмов с реальным соперником. Обнаружен эффект «переобучения» — увеличение количества обучающих партий в ряде случаев не улучшает, а ухудшает качество работы алгоритма.

Ключевые слова: обучение с подкреплением, математическое моделирование, $Q$-обучение, метод SARSA($\lambda$), алгоритм распознавания блефа, имитация блефа, нейронные сети, высокоскоростное принятие решений.

DOI: 10.20948/prepr-2018-170