Аннотация:
В данной работе мы предлагаем алгоритм натурального градиентного спуска с импульсом на основе распределений Дирихле для ускорения обучения нейронных сетей. Данный подход учитывает не только направления градиентов, но и выпуклость минимизируемой функции, что значительно ускоряет процесс поиска экстремумов. Представлены вычисления натуральных градиентов, базирующихся на распределениях Дирихле, и реализовано внедрение предложенного подхода в схему обратного распространения ошибок. Результаты по распознаванию изображений и прогнозированию временных рядов во время проведения экспериментов показывают, что предложенный подход дает более высокую точность и не требует большого количества итераций для минимизации функций потерь, по сравнению с методами стохастического градиентного спуска, адаптивной оценки момента и адаптивным по параметрам диагональным квазиньютоновским методом для невыпуклой стохастической оптимизации.