А. В. Созыкин, “Обзор методов обучения глубоких нейронных сетей”, Вестн. ЮУрГУ. Сер. Выч. матем. информ., 2017, том 6, выпуск 3,страницы 28

Эта публикация цитируется в 17 статьях

Информатика, вычислительная техника и управление

Обзор методов обучения глубоких нейронных сетей

А. В. Созыкин^ab

^a Институт математики и механики им. Н.Н. Красовского УрО РАН (620990 Екатеринбург, ул. Софьи Ковалевской, д. 16)
^b Уральский федеральный университет (620002 Екатеринбург, ул. Мира, д. 19)

Аннотация: Глубокие нейронные сети в настоящее время становятся одним из самых популярных подходов к созданию систем искусственного интеллекта, таких как распознавание речи, обработка естественного языка, компьютерное зрение и т.п. В статье представлен обзор истории развития и современного состояния методов обучению глубоких нейронных сетей. Рассматривается модель искусственной нейронной сети, алгоритмы обучения нейронных сетей, в том числе алгоритм обратного распространения ошибки, применяемый для обучения глубоких нейронных сетей. Описывается развитие архитектур нейронных сетей: неокогнитрон, автокодировщики, сверточные нейронные сети, ограниченная машина Больцмана, глубокие сети доверия, сети долго-краткосрочной памяти, управляемые рекуррентные нейронные сети и сети остаточного обучения. Глубокие нейронные сети с большим количеством скрытых слоев трудно обучать из-за проблемы исчезающего градиента. В статье рассматриваются методы решения этой проблемы, которые позволяют успешно обучать глубокие нейронные сети с более чем ста слоями. Приводится обзор популярных библиотек глубокого обучения нейронных сетей, которые сделали возможным широкое практическое применение данной технологии. В настоящее время для задач компьютерного зрения используются сверточные нейронные сети, а для обработки последовательностей, в том числе естественного языка, — рекуррентные нейронные сети, прежде всего сети долго-краткосрочной памяти и управляемые рекуррентные нейронные сети.

Ключевые слова: глубокое обучение, нейронные сети, машинное обучение.

УДК: 004.85

Поступила в редакцию: 12.04.2017

DOI: 10.14529/cmse170303