RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 400–414 (Mi danma697)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Оценка качества кластеризации в признаковом и сетевом пространствах: эмпирические бенчмарки для кластеризации атрибутированных сетей

С. Шалилех, Д. А. Цыплакова, Е. А. Антонов

ПАО "Сбербанк", СберИндекс, Москва, Российская Федерация

Аннотация: Мы эмпирически исследуем внутренние индексы кластерной валидности для атрибутированных сетей, оценивая критерии в пространстве признаков и в сетевом пространстве с помощью контролируемых генераторов, которые разделяют атрибуты и топологию при сохранении одинаковой мощности кластеров. Используя унифицированное обозначение, гауссовы “облака” для признаков и стохастическую блочную модель для графов, мы анализируем следующие индексы: Silhouette Width (SW), Calinski-Harabasz (CH), Davies-Bouldin (DBI), S$_{\mathrm{Dbw}}$ Average Isolability (AVI), Average Unifiability (AVU) и ANUI как для истинных разбиений, так и для случайных. SW оказывается стабильным и насыщается при наличии достаточного числа признаков; CH сильно растет с размером выборки (что мотивирует использовать нормировку CH/v); DBI и S$_{\mathrm{Dbw}}$ различают истинные и случайные разбиения, но имеют базовые значения случайных разбиений зависимыми от K, что подталкивает к нормализации относительно базовой линии. В сетевом пространстве AVI увеличивается с ростом ассортативности и убывает примерно, как I /K, AVU снижается с ростом K, приближаясь к нижней границе, а ANUI следует тем же тенденциям; все индексы стремятся к случайным базовым значениям при увеличении перекрытия/смешивания, тогда как доверительные интервалы сужаются при росте числа выборок или информативности признаков. Мы предоставляем эмпирический бенчмарк, простые эвристики масштабирования и практические рекомендации по применению индексов кластерной валидности (CVI) в атрибутированных сетях.

Ключевые слова: индексы кластерной валидности, атрибутированные сети, признаки, кластеризация.

УДК: 004.891.3

Поступило: 20.08.2025
Принято к публикации: 29.09.2025

DOI: 10.7868/S2686954325070355



Реферативные базы данных:


© МИАН, 2025