RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления // Архив

Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2019, том 15, выпуск 1, страницы 76–92 (Mi vspui391)

Эта публикация цитируется в 3 статьях

Прикладная математика

Марковский момент остановки агломеративного процесса кластеризации в евклидовом пространстве

А. В. Орехов

Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7-9

Аннотация: При обработке больших массивов эмпирической информации или данных большой размерности кластерный анализ является одним из основных методов предварительной типологизации. Это обусловливает в том числе необходимость получения формальных правил для вычисления количества кластеров. В настоящее время наиболее распространенным методом определения предпочтительного числа кластеров является визуальный анализ дендрограмм, но такой подход сугубо эвристический. Выбор множества кластеров и момент завершения алгоритма кластеризации зависят друг от друга. Кластерный анализ данных из $n$-мерного евклидова пространства методом «одиночной связи» можно рассматривать как дискретный случайный процесс. Последовательности «минимальных расстояний» задают траектории этого процесса. Аппроксимационно-оценочный критерий» (approximation-estimating test) позволяет определить марковский момент, когда характер возрастания такой последовательности изменяется с линейного на параболический, что, в свою очередь, может быть признаком завершения агломеративного процесса кластеризации. Расчет количества кластеров является актуальной проблемой во многих случаях автоматической типологизации эмпирических данных, например в медицине при цитометрическом исследовании крови, автоматическом анализе текстов и в ряде других случаев, когда количество кластеров заранее неизвестно.

Ключевые слова: кластерный анализ, метод наименьших квадратов, марковский момент.

УДК: 519.237.8+519.216.5

MSC: 62H30

Поступила: 28 февраля 2018 г.
Принята к печати: 18 декабря 2018 г.

DOI: 10.21638/11701/spbu10.2019.106



Реферативные базы данных:


© МИАН, 2024