Аннотация:
Рассматривается решение игровых задач на примере задачи поиска пути в лабиринте при
помощи нейронной сети. Такая задача может быть решена одним из существующих методов
обучения с подтверждением, однако решения имеют несколько недостатков, к которым
можно отнести, например, большое время обучения для «классического» метода обучения
с подтверждением. Приводится анализ данных алгоритмов, в том числе метода обучения
с подтверждением, основанного на использовании метода поиска Монте-Карло в игровом
дереве. Рассматривается вариант постановки исходной задачи, в котором вместо всего поля
лабиринта на нейронную сеть подается вход, состоящий только из одного значения — признака,
обозначающего, что предыдущий шаг был успешный или тупиковый. Предлагается
вариант решения поставленной задачи при помощи синтеза нейронной сети на основании
предварительно синтезированного алгоритма. Получена нейронная сеть, построенная из
неформального описания алгоритма, которая позволяет выполнять поиск пути в лабиринте.
Основная идея, используемая при формировании нейронной сети, заключается в том, что
найденный или исследуемый путь отмечается в нейронной сети весами единиц, тупиковый —
отрицательными весами, а неисследованный — нулевыми. При попадании робота в тупик происходит
перезапуск процесса поиска пути из начального состояния, а тупиковое состояние
отмечается в лабиринте как недостижимое. Приведены несколько этапов процесса поиска пути
в лабиринте, иллюстрирующих работу синтезированной нейронной сети. Приведен сравнительный
анализ полученного решения и существующих методов обучения с подтверждением.
Ключевые слова:нейронные сети, структура нейронной сети, методы обучения, игровое
дерево, поиск пути в лабиринте.