RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2024, том 520, номер 2, страницы 267–283 (Mi danma606)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Эмпирическое исследование четырех методов кластеризации с четырьмя метриками расстояния и одним простым правилом интерпретации

Т. А. Алвандянa, С. А. Шалилехab

a Научно-учебная лаборатория методов искусственного интеллекта для когнитивных наук, НИУ ВШЭ, Москва, Российская Федерация
b ПАО Сбербанк, Сбериндекс, Москва, Российская Федерация

Аннотация: Методы кластеризации всегда были востребованы как в научных, так и в прикладных исследованиях. В то же время из-за недостатка “правильных ответов” результаты, полученные при кластеризации, могут ставиться под сомнение. Наше исследование представляет эмпирические тесты эффективности трех ныне популярных и одного недавно опубликованного метода кластеризации. С этой целью мы анализируем эти четыре метода с помощью применения к девяти наборам данных из реального мира и на 420 синтетически сгенерированных наборах данных с использованием четырех разных параметров числа $p$ в расстоянии Минковского. К тому же мы проверили ранее предложенное, но малоизвестное простое правило для интерпретации восстановленных кластеров. Наши расчеты показали: (i) кластеризация c помощью градиентного спуска по инерции Нестерова самый эффективный алгоритм кластеризации на реальных данных, в то время как K-Means с небольшим преимуществом победил в состязаниях с синтетическими данными; (ii) расстояние Минковского с $p$ = 1 самая эффективная функция расстояния; (iii) рассмотренное правило интерпретации кластеров является интуитивно понятным и корректным.

Ключевые слова: кластеризация, расстояние Минковского, алгоритмы.

УДК: 004.891.3

Поступило: 27.09.2024
Принято к публикации: 02.10.2024

DOI: 10.31857/S2686954324700632


 Англоязычная версия: Doklady Mathematics, 2024, 110:suppl. 1, S236–S250

Реферативные базы данных:


© МИАН, 2025