Аннотация:
Работа посвящена развитию метода рандомизированного машинного обучения в направлении оценивания динамических моделей связанных процессов с использованием реальных данных, один из которых рассматривается в качестве основного, а другой в качестве зависимого. Модель основного процесса в этой концепции реализуется динамической моделью на основе дифференциальных уравнений с параметрами, которые в свою очередь реализуются статической моделью в другой временной шкале. Рандомизированное машинное обучение — новая теория, находящаяся на стыке науки о данных, машинного обучения и интеллектуального анализа данных, основанная на использовании концепции энтропии для оценивания вероятностных характеристик параметров моделей. Такими характеристиками являются распределения вероятностей соответствующих объектов, оценками которых являются распределения, реализованные функциями плотности распределения вероятностей или дискретными распределениями. Достижение этой цели становится возможным благодаря идее перехода от моделей с детерминированными параметрами к моделями со случайными параметрами и, дополнительно, измеряемыми на выходе со случайным шумом, чем достигается учёт стохастической природы, которая, очевидно, присутствует в любом природном феномене. В качестве демонстрации предлагаемого в работе метода рассматривается задача прогнозирования общего количества инфицированных, основанная на динамической эпидемиологической модели SIR, в которой один из параметров рассматривается в качестве состояния связанного процесса, реализуемого статической моделью. Её оценивание производится по наблюдениям основного процесса, а прогнозирование осуществляется с помощью модели связанного процесса. Проведённый эксперимент с использованием реальных данных о случаях заболевания COVID-19 в Германии показывает работоспособность предлагаемого подхода. Прогноз, полученный классическим методом наименьших квадратов, приводит к недооценке выхода модели по сравнению с реальными наблюдаемыми данными, в то время как предлагаемый в работе подход обладает большей гибкостью и потенциально позволяет получать более адекватные реальным данным прогнозы, чем подтверждается его эффективность и адекватность в условиях малого количества данных с высоким уровнем неопределённости.