Аннотация:
Методы кластеризации всегда были востребованы как в научных, так и в прикладных исследованиях. В то же время из-за недостатка “правильных ответов” результаты, полученные при кластеризации, могут ставиться под сомнение. Наше исследование представляет эмпирические тесты эффективности трех ныне популярных и одного недавно опубликованного метода кластеризации. С этой целью мы анализируем эти четыре метода с помощью применения к девяти наборам данных из реального мира и на 420 синтетически сгенерированных наборах данных с использованием четырех разных параметров числа $p$ в расстоянии Минковского. К тому же мы проверили ранее предложенное, но малоизвестное простое правило для интерпретации восстановленных кластеров. Наши расчеты показали: (i) кластеризация c помощью градиентного спуска по инерции Нестерова самый эффективный алгоритм кластеризации на реальных данных, в то время как K-Means с небольшим преимуществом победил в состязаниях с синтетическими данными; (ii) расстояние Минковского с $p$ = 1 самая эффективная функция расстояния; (iii) рассмотренное правило интерпретации кластеров является интуитивно понятным и корректным.
Ключевые слова:
кластеризация, расстояние Минковского, алгоритмы.
УДК:
004.891.3
Поступило: 27.09.2024 Принято к публикации: 02.10.2024