Аннотация:
К настоящему времени мало что известно о виде функции потерь, минимизируемой при обучении глубинных нейронных сетей. За последние несколько лет в глубинном обучении обнаружен ряд интересных эффектов, которые позволяют высказать ряд предположений о ее возможных свойствах. В докладе мы разберем некоторые эффекты и выдвинем гипотезу, которая может объяснить хорошую обобщающую способность обученных нейросетей, наличие «минных полей» в пространстве весов, причины двойного спуска (double descent) по эпохам и по сложности моделей. Во второй части доклада мы поговорим про преимущества использования ансамблей нейросетей и про интересные степенные законы, которые эмпирически наблюдаются при ансамблировании.