RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2020, том 14, выпуск 1, страницы 63–70 (Mi ia646)

Эта публикация цитируется в 6 статьях

О методах повышения точности многоклассовой классификации на несбалансированных данных

Л. А. Севастьяновa, Е. Ю. Щетининb

a Российский университет дружбы народов
b Финансовый университет при Правительстве РФ

Аннотация: Проведены исследования методов преодоления разбалансированности классов в данных с целью повышения качества классификации с точностью, более высокой, чем при непосредственном использовании алгоритмов классификации к несбалансированным данным. Для повышения точности классификации в работе предложена схема, состоящая в использовании комбинации алгоритмов классификации и методов отбора признаков RFE (Recursive Feature Elimination), Random Forest и Boruta с предварительным использованием балансирования классов методами случайного семплирования, SMOTE (Synthetic Minority Oversamplimg TEchnique) и ADASYN (ADAptive SYNthetic sampling). На примере данных о заболеваниях кожи проведены компьютерные эксперименты, показавшие, что применение алгоритмов семплирования для устранения дисбаланса классов, а также отбора наиболее информативных признаков значительно повышает точность результатов классификации. Наиболее эффективным по точности классификации оказался алгоритм случайного леса при семплировании данных с использованием алгоритма ADASYN.

Ключевые слова: классификация, несбалансированные данные, семплирование, случайный лес, ADASYN, SMOTE.

Поступила в редакцию: 29.11.2019

DOI: 10.14357/19922264200109



© МИАН, 2024