RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2008, спецвыпуск, страницы 6–15 (Mi ssi151)

On a simulation aproach to cluster stabilty validation

[Об имитационном подходе в задаче кластерной стабильности]

Zeev Barzily, Mati Golani, Zeev Volkovich

Software Engineering Department, ORT Braude College of Engineering

Аннотация: В данной статье обсуждается новый подход к задаче определения числа кластеров в заданной совокупности. Наш метод сочетает в себе методику, основанную на оценке плотности совокупности, с методикой кластерной стабильности. Следуя первой методике, мы рассматриваем кластеры как «острова высокой плотности» в «море данных низкой плотности». Кроме того мы полагаем, что эти острова устойчивы по отношению к зашумлению данных. Иначе говоря, мы считаем, что добавление подходящего шума к данным не ведет к резкому изменению кластеров. С целью проверки кластерной устойчивости мы рассматриваем пары выборок таким образом, что одна из выборок выбирается из рассматриваемой совокупности, а вторая получается с помощью добавления случайного шума к первой. Расстояния между выборками измеряются на основе простых вероятностных метрик, являющихся, де факто, статистиками тестов однородности. Наиболее сконцентрированное в нулевой точке эмпирическое распределение такой статистики соответствует правильному выбору числа кластеров. Численные эксперименты демонстрируют высокую надежность предлагаемого метода.

Язык публикации: английский



© МИАН, 2024