Аннотация:
При обработке больших массивов эмпирической информации или данных большой размерности кластерный анализ является одним из основных методов предварительной типологизации. Это обусловливает в том числе необходимость получения формальных правил для вычисления количества кластеров. В настоящее время наиболее распространенным методом определения предпочтительного числа кластеров является визуальный анализ дендрограмм, но такой подход сугубо эвристический. Выбор множества кластеров и момент завершения алгоритма кластеризации зависят друг от друга. Кластерный анализ данных из $n$-мерного евклидова пространства методом «одиночной связи» можно рассматривать как дискретный случайный процесс. Последовательности «минимальных расстояний» задают траектории этого процесса. Аппроксимационно-оценочный критерий» (approximation-estimating test) позволяет определить марковский момент, когда характер возрастания такой последовательности изменяется с линейного на параболический, что, в свою очередь, может быть признаком завершения агломеративного процесса кластеризации. Расчет количества кластеров является актуальной проблемой во многих случаях автоматической типологизации эмпирических данных, например в медицине при цитометрическом исследовании крови, автоматическом анализе текстов и в ряде других случаев, когда количество кластеров заранее неизвестно.
Ключевые слова:кластерный анализ, метод наименьших квадратов, марковский момент.