Аннотация:
В работе исследовано применение модели ARIMA прогнозирования временных рядов для анализа открытых данных о распространении коронавирусной инфекции в ряде регионов Российской Федерации. Рассматривается возможность применения существующих методов и алгоритмов языка программирования для статистической обработки данных R, приводятся алгоритмы подбора параметров модели ARIMA. Разработан и опубликован скрипт на языке программирования R, позволяющий осуществить с помощью стандартной библиотеки auto.arima прогнозирование суммарных случаев заражения и летальных исходов на выбранный промежуток времени. В работе показано, что параметры модели различны для временных рядов разной длины, для различных регионов, кроме того, параметры модели меняются с течением времени. Исследован имеющийся инструментарий языка R и показано, что существуют наборы данных для которых он не позволяет получить параметры модели, дающей наименьшую погрешность. Исследована частота переобучения модели, приведены данные об изменении параметров модели для временных рядов разной длины. Исследование случаев ошибки автоматического подбора параметров модели является темой для дальнейших исследований. Приведена содержательная интерпретация полученных данных. Проведено сравнение прогнозов, полученных в конце октября 2020 г. и актуальных данных на середину ноября 2020 г. Показано, что полученный прогноз позволил достаточно точно предсказать суммарное число заражений и летальных исходов на 7–10 дней.