И. Л. Кирилюк, О. В. Сенько, “Оценка качества кластеризации панельных данных с использованием методов Монте-Карло (на примере данных российской региональной экономики)”, Компьютерные исследования и моделирование, 2020, том 12, выпуск 6,страницы 1501

Эта публикация цитируется в 5 статьях

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Оценка качества кластеризации панельных данных с использованием методов Монте-Карло (на примере данных российской региональной экономики)

И. Л. Кирилюк^a, О. В. Сенько^b

^a Институт экономики Российской академии наук, Россия, 117218, г. Москва, Нахимовский проспект, д. 32
^b Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Россия, 119333, г. Москва, ул. Вавилова, д. 44/2

Аннотация: В работе рассматривается метод исследования панельных данных, основанный на использовании агломеративной иерархической кластеризации — группировки объектов на основании сходства и различия их признаков в иерархию вложенных друг в друга кластеров. Применялись 2 альтернативных способа вычисления евклидовых расстояний между объектами — расстояния между усредненными по интервалу наблюдений значениями и расстояния с использованием данных за все рассматриваемые годы. Сравнивались 3 альтернативных метода вычисления расстояний между кластерами. В первом случае таким расстоянием считается расстояние между ближайшими элементами из двух кластеров, во втором — среднее по парам элементов, в третьем — расстояние между наиболее удаленными элементами. Исследована эффективность использования двух индексов качества кластеризации — индекса Данна и Силуэта для выбора оптимального числа кластеров и оценки статистической значимости полученных решений. Способ оценивания статистической достоверности кластерной структуры заключался в сравнении качества кластеризации, на реальной выборке с качеством кластеризаций на искусственно сгенерированных выборках панельных данных с теми же самыми числом объектов, признаков и длиной рядов. Генерация производилась из фиксированного вероятностного распределения. Использовались способы симуляции, имитирующие гауссов белый шум и случайное блуждание. Расчеты с индексом Силуэт показали, что случайное блуждание характеризуется не только ложной регрессией, но и ложной кластеризацией. Кластеризация принималась достоверной для данного числа выделенных кластеров, если значение индекса на реальной выборке оказывалось больше значения 95%-ного квантиля для искусственных данных. В качестве выборки реальных данных использован набор временных рядов показателей, характеризующих производство в российских регионах. Для этих данных только Силуэт показывает достоверную кластеризацию на уровне $p< 0.05$. Расчеты также показали, что значения индексов для реальных данных в целом ближе к значениям для случайных блужданий, чем для белого шума, но имеют значимые отличия и от тех, и от других. Визуально можно выделить скопления близко расположенных друг от друга в трехмерном признаковом пространстве точек, выделяемые также в качестве кластеров применяемым алгоритмом иерархической кластеризации.

Ключевые слова: достоверность кластеризации, панельные данные, мезоэкономика, экономика регионов.

УДК: 519.237.8

Поступила в редакцию: 04.05.2020
Исправленный вариант: 02.09.2020
Принята в печать: 18.09.2020

DOI: 10.20537/2076-7633-2020-12-6-1501-1513