Семинары: Д. Н. Тяпкин, Алгоритм UMAP как алгоритм топологического анализа данных

СЕМИНАРЫ


Семинар научно-учебной лаборатории прикладной геометрии и топологии 10 октября 2019 г. 18:10, г. Москва, Покровский бульвар, 11, корпус G, аудитория G00

Алгоритм UMAP как алгоритм топологического анализа данных Д. Н. Тяпкин
Аннотация: Алгоритмы понижения размерности – достаточно популярное направление современного Machine Learning. Формально задачу можно построить так: дано облако точек в пространстве большой размерности (к примеру, 200), необходимо построить некоторую “достаточно хорошую” проекцию в маломерное (к примеру, в размерность 2) пространство. В определении “достаточной хорошести” скрываются главные проблемы. Есть два подхода, в первом алгоритм пытается сохранить структуру глобальных расстояний между точками, а во втором – какие-то локальные особенности данных, к примеру, пустоты или, наоборот, кластера. Алгоритм UMAP относится ко второй категории и пытается сохранить локальные особенности облака точек, притом основная идея строится вокруг построения так называемых неявных (fuzzy) симплициальных комплексов в разных размерностях и оптимизации некоторого расстояния между ними. На семинаре мы обсудим этот алгоритм и математические идеи, на которых он основан, а также рассмотрим примеры его работы на некоторых данных.