Аннотация:
Вариационные автокодировщики (variational autoencoder, VAE) — популярная порождающая вероятностная модель для многомерных данных — например, изображений. В основе их работы лежит идея о том, что реальные многомерные данные на самом деле живут вблизи каких-то маломерных многообразий, и мы хотим такие многообразия уметь восстанавливать и, в идеале, вводить на них «хорошие» координаты — такие, которые бы легко интерпретировались в терминах исходных данных. Автокодировщик учит два отображения — из исходного многомерного пространства, в котором живёт обучающая выборка, в маломерное латентное пространство (кодировщик) и наоборот (декодировщик), таким образом, чтобы минимизировать «ошибку реконструкции», то есть расстояние между объектом выборки и результатом применения к нему сначала кодировщика, а затем декодировщика. Таким образом, автокодировщики можно рассматривать как один из методов снижения размерности. Если кодировщик и декодировщик линейны, то получится обычный метод главных компонент. Вариационные автокодировщики работают не просто с отдельными точками, а с вероятностными распределениями в исходном и латентном пространствах, что позволяет улучшить их свойства. В то же время, до недавнего времени в качестве латентного пространства использовалось в основном евклидово пространство, в то время как гипотетические «многообразия данных» даже в очень простых примерах обладают нетривиальной топологией. В этих условиях нет никакой надежды на то, что декодировщик окажется непрерывным отображением, и это снижает ценность всей конструкции как метода осмысленной параметризации многомерных объектов. Сравнительно недавно появились работы, в которых в качестве латентного пространства используются нетривиальные многообразия — например, гиперсфера и группа вращений пространства SO(3). О них и пойдёт речь в докладе.
|