Аннотация:
Проведены исследования методов преодоления разбалансированности классов в данных с целью повышения качества классификации с точностью, более высокой, чем при непосредственном использовании алгоритмов классификации к несбалансированным данным. Для повышения точности классификации в работе предложена схема, состоящая в использовании комбинации алгоритмов классификации и методов отбора признаков RFE (Recursive Feature Elimination), Random Forest и Boruta с предварительным использованием балансирования классов методами случайного семплирования, SMOTE (Synthetic Minority Oversamplimg TEchnique) и ADASYN (ADAptive SYNthetic sampling). На примере данных о заболеваниях кожи проведены компьютерные эксперименты, показавшие, что применение алгоритмов семплирования для устранения дисбаланса классов, а также отбора наиболее информативных признаков значительно повышает точность результатов классификации. Наиболее эффективным по точности классификации оказался алгоритм случайного леса при семплировании данных с использованием алгоритма ADASYN.