RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2019, том 13, выпуск 3, страницы 34–40 (Mi ia607)

Эта публикация цитируется в 2 статьях

Гибридные модели экстремального градиентного бустинга для восстановления пропущенных значений в данных об осадках

А. К. Горшенинab, О. П. Мартыновb

a Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии наук
b Факультет вычислительной математики и кибернетики Московского государственного университета им. М. В. Ломоносова

Аннотация: Проведено сравнение классического метода экстремального градиентного бустинга, реализованного во фреймворке XGBoost (eXtreme Gradient Boosting, экстремальный градиентный бустинг) и категориальной модификации CatBoost (Categorical Boosting, категориальный бустинг), которая достаточно редко встречается в научных исследованиях. Предложены некоторые гибридные модели классификации регрессии для повышения точности заполнения пропусков в реальных данных на примере 14 станций в Германии. Достигнутая точность в задачах классификации составила до 92% при весьма умеренных значениях ошибок прогнозов в метрике RMSE (Root Mean-Square Error, среднеквадратичная ошибка). Гибридные методы превзошли по качеству предсказания простые модели классификации и регрессии. Развиваемые подходы могут быть успешно использованы как для непосредственного анализа метеорологических данных методами машинного обучения, так и для улучшения качества предсказания на основе физических моделей атмосферных процессов.

Ключевые слова: заполнение пропусков, осадки, классификация, регрессия, градиентный бустинг, XGBoost, CatBoost.

Поступила в редакцию: 08.07.2019

DOI: 10.14357/19922264190306



© МИАН, 2024