Л. А. Севастьянов, Е. Ю. Щетинин, “О методах повышения точности многоклассовой классификации на несбалансированных данных”, Информ. и её примен., 2020, том 14, выпуск 1,страницы 63

Эта публикация цитируется в 6 статьях

О методах повышения точности многоклассовой классификации на несбалансированных данных

Л. А. Севастьянов^a, Е. Ю. Щетинин^b

^a Российский университет дружбы народов
^b Финансовый университет при Правительстве РФ

Аннотация: Проведены исследования методов преодоления разбалансированности классов в данных с целью повышения качества классификации с точностью, более высокой, чем при непосредственном использовании алгоритмов классификации к несбалансированным данным. Для повышения точности классификации в работе предложена схема, состоящая в использовании комбинации алгоритмов классификации и методов отбора признаков RFE (Recursive Feature Elimination), Random Forest и Boruta с предварительным использованием балансирования классов методами случайного семплирования, SMOTE (Synthetic Minority Oversamplimg TEchnique) и ADASYN (ADAptive SYNthetic sampling). На примере данных о заболеваниях кожи проведены компьютерные эксперименты, показавшие, что применение алгоритмов семплирования для устранения дисбаланса классов, а также отбора наиболее информативных признаков значительно повышает точность результатов классификации. Наиболее эффективным по точности классификации оказался алгоритм случайного леса при семплировании данных с использованием алгоритма ADASYN.

Ключевые слова: классификация, несбалансированные данные, семплирование, случайный лес, ADASYN, SMOTE.

Поступила в редакцию: 29.11.2019

DOI: 10.14357/19922264200109