Аннотация:
Алгоритмы понижения размерности – достаточно популярное направление современного Machine Learning. Формально задачу можно построить так: дано облако точек в пространстве большой размерности (к примеру, 200), необходимо построить некоторую “достаточно хорошую” проекцию в маломерное (к примеру, в размерность 2) пространство.
В определении “достаточной хорошести” скрываются главные проблемы. Есть два подхода, в первом алгоритм пытается сохранить структуру глобальных расстояний между точками, а во втором – какие-то локальные особенности данных, к примеру, пустоты или, наоборот, кластера.
Алгоритм UMAP относится ко второй категории и пытается сохранить локальные особенности облака точек, притом основная идея строится вокруг построения так называемых неявных (fuzzy) симплициальных комплексов в разных размерностях и оптимизации некоторого расстояния между ними.
На семинаре мы обсудим этот алгоритм и математические идеи, на которых он основан, а также рассмотрим примеры его работы на некоторых данных.
|