Аннотация:
Исследуется модель эволюции популяций самообучающихся агентов и анализируется взаимодействие между обучением и эволюцией. Система управления агента основана на нейросетевых адаптивных критиках, обучаемых методом обучения с подкреплением. Модель исследуется на примере простого агента-брокера, который предсказывает изменения биржевого курса и использует эти предсказания для выбора действий. Проведено сравнение трех вариантов модели, в которых включены 1) либо обучение и эволюция одновременно, 2) либо отдельно эволюция, 3) либо отдельно обучение. Показано, что в данной модели может наблюдаться эффект Болдуина, т.е. первоначально приобретаемые навыки агентов в процессе эволюции становятся наследуемыми. Проведено сравнение поведения модельных агентов с поисковым поведением простейших животных.