Аннотация:
Мы представляем библиотеку, которая позволяет выбирать и настраивать алгоритмы кластеризации для мультимодальных данных, то есть данных, где каждый объект представлен не только вектором, но также текстом и/или изображением, и каждая модальность значима. Наша библиотека автоматически находит баланс между исследованием и эксплуатацией входных данных среди набора реализованных алгоритмов кластеризации в соответствии с выбранным внутренним индексом валидации кластеризации. В библиотеке также реализована рекомендательная система для выбора индекса валидации, которая может предсказать наиболее подходящую меру для входных данных. Мы использовали Apache Spark для реализации алгоритмов кластеризации, что позволяет использовать библиотеку на распределённых вычислительных системах для кластеризации больших мультимодальных данных. Библ. – 12 назв.