RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2024, том 540, страницы 178–193 (Mi znsl7550)

An opensource library for AutoML multimodal clustering on Apache Spark

[Открытая библиотека для мультимодальной кластеризации методами AutoML на Apache Spark]

S. Muravyova, V. Kazakovtsevb, I. Usova, P. Shpinevaa, O. Muravyovaa, A. Shalytoa

a ITMO University, St. Petersburg, Russia
b Siberian Federal University, Krasnoyarsk, Russia

Аннотация: Мы представляем библиотеку, которая позволяет выбирать и настраивать алгоритмы кластеризации для мультимодальных данных, то есть данных, где каждый объект представлен не только вектором, но также текстом и/или изображением, и каждая модальность значима. Наша библиотека автоматически находит баланс между исследованием и эксплуатацией входных данных среди набора реализованных алгоритмов кластеризации в соответствии с выбранным внутренним индексом валидации кластеризации. В библиотеке также реализована рекомендательная система для выбора индекса валидации, которая может предсказать наиболее подходящую меру для входных данных. Мы использовали Apache Spark для реализации алгоритмов кластеризации, что позволяет использовать библиотеку на распределённых вычислительных системах для кластеризации больших мультимодальных данных. Библ. – 12 назв.

Ключевые слова: автоматическое машинное обучение, мультимодальные модели, кластеризация, Apache Spark.

Поступило: 15.11.2024

Язык публикации: английский



© МИАН, 2025