Аннотация:
В работе проводится исследование проблемы дисбаланса данных. Описаны виды несбалансированности, а также класс проблем, возникающих при обучении моделей машинного обучения. Проведен обзор моделей машинного обучения, проявляющих различную степень чувствительности к несбалансированным данным. Приводится описание групп методов, применяемых для балансировки классов в обучающей выборке. В контексте методов синтетической генерации данных миноритарного класса рассмотрен алгоритм синтеза данных с помощью подпространственной кластеризации CLIQUE. Предложена модифицированная версия алгоритма, использующая генетический алгоритм для определения оптимальных значений параметров CLIQUE. Проведено исследование, демонстрирующее различную эффективность методов генерации данных миноритарного класса в зависимости от типа дисбаланса и выбранной модели машинного обучения.
Ключевые слова:
машинное обучение, обучающая выборка, обучение и переобучение, доминирующий класс, миноритарный класс, методы повторной выборки.