С. Д. Шибайкин, Е. А. Каледина, В. В. Никулин, “Исследование проблемы межклассовой несбалансированности данных для построения моделей классификации”, Искусственный интеллект и принятие решений, 2026, выпуск 1,страницы 103

Машинное обучение, нейронные сети

Исследование проблемы межклассовой несбалансированности данных для построения моделей классификации

С. Д. Шибайкин, Е. А. Каледина, В. В. Никулин

Национальный исследовательский Мордовский государственный университет имени Н. П. Огарева, Саранск, Россия

Аннотация: В работе проводится исследование проблемы дисбаланса данных. Описаны виды несбалансированности, а также класс проблем, возникающих при обучении моделей машинного обучения. Проведен обзор моделей машинного обучения, проявляющих различную степень чувствительности к несбалансированным данным. Приводится описание групп методов, применяемых для балансировки классов в обучающей выборке. В контексте методов синтетической генерации данных миноритарного класса рассмотрен алгоритм синтеза данных с помощью подпространственной кластеризации CLIQUE. Предложена модифицированная версия алгоритма, использующая генетический алгоритм для определения оптимальных значений параметров CLIQUE. Проведено исследование, демонстрирующее различную эффективность методов генерации данных миноритарного класса в зависимости от типа дисбаланса и выбранной модели машинного обучения.

Ключевые слова: машинное обучение, обучающая выборка, обучение и переобучение, доминирующий класс, миноритарный класс, методы повторной выборки.

DOI: 10.14357/20718594260108