RUS  ENG
Полная версия
ЖУРНАЛЫ // Искусственный интеллект и принятие решений // Архив

Искусственный интеллект и принятие решений, 2026, выпуск 1, страницы 103–121 (Mi iipr663)

Машинное обучение, нейронные сети

Исследование проблемы межклассовой несбалансированности данных для построения моделей классификации

С. Д. Шибайкин, Е. А. Каледина, В. В. Никулин

Национальный исследовательский Мордовский государственный университет имени Н. П. Огарева, Саранск, Россия

Аннотация: В работе проводится исследование проблемы дисбаланса данных. Описаны виды несбалансированности, а также класс проблем, возникающих при обучении моделей машинного обучения. Проведен обзор моделей машинного обучения, проявляющих различную степень чувствительности к несбалансированным данным. Приводится описание групп методов, применяемых для балансировки классов в обучающей выборке. В контексте методов синтетической генерации данных миноритарного класса рассмотрен алгоритм синтеза данных с помощью подпространственной кластеризации CLIQUE. Предложена модифицированная версия алгоритма, использующая генетический алгоритм для определения оптимальных значений параметров CLIQUE. Проведено исследование, демонстрирующее различную эффективность методов генерации данных миноритарного класса в зависимости от типа дисбаланса и выбранной модели машинного обучения.

Ключевые слова: машинное обучение, обучающая выборка, обучение и переобучение, доминирующий класс, миноритарный класс, методы повторной выборки.

DOI: 10.14357/20718594260108



Реферативные базы данных:


© МИАН, 2026