RUS  ENG
Полная версия
ЖУРНАЛЫ // Журнал Белорусского государственного университета. Математика. Информатика // Архив

Журн. Белорус. гос. ун-та. Матем. Инф., 2022, том 1, страницы 83–96 (Mi bgumi180)

Теоретические основы информатики

Методы интеллектуального анализа данных в исследованиях эпидемии COVID -19

О. В. Сенькоab, А. В. Кузнецоваbc, Е. М. Воронинb, О. А. Кравцоваbd, Л. Р. Борисоваe, И. Л. Кирилюкf, В. Г. Акимкинb

a Федеральный исследовательский центр «Информатика и управление» Российской академии наук, ул. Вавилова, 44, корп. 2, 119333, г. Москва, Россия
b Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора, ул. Новогиреевская, 3а, 111123, г. Москва, Россия
c Институт биохимической физики им. Н. М. Эмануэля Российской академии наук, ул. Косыгина, 4, 119334, г. Москва, Россия
d Московский государственный университет им. М. В. Ломоносова, Ленинские горы, 1, 119991, г. Москва, Россия
e Финансовый университет при Правительстве Российской Федерации, пр. Ленинградский, 49/2, 125167, г. Москва, Россия
f Институт экономики Российской академии наук, пр. Нахимовский, 32, 117218, г. Москва, Россия

Аннотация: Представлен оригинальный метод поиска связи хода эпидемии с социально-экономическими, демографическими и климатическими факторами. В рамках предложенного метода проведена иерархическая агломеративная кластеризация 110 стран мира по кривым темпа роста COVID-19 за период с января 2020 по август 2021 г. Выделены четыре крупных кластера с единообразными кривыми, включающих 11, 39, 17 и 13 стран соответственно. Еще 30 стран не вошли ни в один из кластеров. Методами машинного обучения в выделенных кластерах выявлены различия социально-экономических, демографических и географо-климатических показателей. Наиболее важными показателями, по которым кластеры отличаются друг от друга, стали амплитуда температур в течение года, индекс чистых бартерных условий торговли, рост населения, средняя температура января, территория (площадь суши), количество погибших в результате стихийных бедствий, коэффициент рождаемости, длина береговой линии, запасы нефти, доля населения в городских агломерациях с численностью населения более 1 млн человек и др. Данный подход (применение кластеризации в сочетании с классификацией методами логико-статистического анализа) ранее никем не использовался. Найденные закономерности позволят более точно проводить прогнозирование эпидемиологического процесса в странах, принадлежащих к разным кластерам. Дополнение представленного подхода авторегрессионными моделями позволит автоматизировать прогноз и повысить его точность.

Ключевые слова: кластерный анализ; методы машинного обучения; статистика; эпидемиологический процесс; COVID-19.

УДК: 004.4

Поступила в редакцию: 31.12.2021
Исправленный вариант: 04.03.2022
Принята в печать: 04.03.2022

DOI: 10.33581/2520-6508-2022-1-83-96



© МИАН, 2024