Аннотация:
Сахарный диабет 2-го типа (СД2) составляет около 90% случаев диабета, и одним из ключевых аспектов СД2 являются жесткие требования к постоянному мониторингу и выявлению. Это исследование направлено на разработку ансамбля из нескольких моделей машинного и глубокого обучения для раннего обнаружения СД2 с высокой точностью. При большом разнообразии моделей ансамбль обеспечивает больше возможностей, чем отдельные модели. Предлагаемый ансамбль моделей основан на использовании известных моделей логистической регрессии, случайного леса, опорных векторов и глубокой нейронной сети. Выходные данные каждой модели в модифицированном ансамбле используются для определения окончательных выходных данных системы. Датасеты, используемые для этих моделей, включают Practice Fusion HER, Pima Indians diabetic's data, UCI AIM94 Dataset и CA Diabetes Prevalence 2014. По сравнению с ранее разработанными решениями, наше решение на основе ансамблевой модели демонстрирует высокие показатели точности, чувствительности и специфичности. В среднем обеспечиваются точность 87,5% от 83,51%, чувствительность 35,8% от 29,59% и специфичность 98,9% от 96,27%. Время работы предлагаемого решения составляет 96,6 мс, в то время как у наиболее по архитектуре известной системы – 97,5 мс. Предлагаемая усовершенствованная система улучшает возможности прогнозирования СД2 на основе использования ансамбля из нескольких моделей машинного и глубокого обучения. Для получения окончательного точного прогноза с использованием результатов отдельных моделей применяется схема мажоритарного голосования. В работе также изменена функция регуляризации, чтобы учесть регуляризацию всех моделей в ансамбле, что помогает предотвратить переобучение и поддержать возможность обобщений в предлагаемой системе.
Ключевые слова:прогнозирование диабета 2-го типа, машинное обучение, ансамбль моделей, глубокие нейронные сети, метод опорных векторов, логистическая регрессия, случайный лес.