RUS  ENG
Полная версия
ЖУРНАЛЫ // Математическое моделирование // Архив

Матем. моделирование, 2022, том 34, номер 10, страницы 110–122 (Mi mm4414)

Эта публикация цитируется в 1 статье

Статистический метод в задачах кластеризации данных

О. В. Николаева

Институт прикладной математики им. М.В. Келдыша РАН

Аннотация: Рассматривается задача оценки качества и улучшения качества имеющихся разбиений на кластеры многоспектральных данных. Построен метод получения расстояния между кластерами. Для нахождения расстояния вектора каждого кластера рассматриваются как реализации некоторого случайного вектора. Строятся выборочные функции распределения (ВФР), находятся оценки погрешностей аппроксимации этими ВФР неизвестных точных функций распределения. Расстояние между двумя кластерами определяется как расстояние между двумя ВФР. Вводятся критерии, в соответствии с которыми два кластера считаются неразличимыми, пересекающимися или различными. Предложен метод улучшения разбиения на кластеры, в котором последовательно объединяются неразличимые (или неразличимые и пересекающиеся) кластеры. Приводятся результаты численных экспериментов на модельных данных. Показано, что предложенный метод позволяет разделять эти данные на составляющие их исходные группы векторов. Приводятся результаты численных экспериментов с реальными данными – многоспектральными изображениями прибора HYPERION, полученными над открытым океаном при чистом небе и в условиях частичной облачности. Показано, что предложенный метод позволяет выявлять на изображениях облака и тени от них.

Ключевые слова: кластеризация, многоспектральные изображения, статистические методы.

Поступила в редакцию: 06.06.2022
Исправленный вариант: 06.06.2022
Принята в печать: 12.09.2022

DOI: 10.20948/mm-2022-10-07


 Англоязычная версия: Mathematical Models and Computer Simulations, 2023, 15:3, 445–453


© МИАН, 2024