И. М. Адамович, О. И. Волков, “Несбалансированность классов в технологии поддержки конкретно-исторических исследований”, Системы и средства информ., 2023, том 33, выпуск 4,страницы 149

Несбалансированность классов в технологии поддержки конкретно-исторических исследований

И. М. Адамович, О. И. Волков

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Аннотация: Статья продолжает серию работ, посвященных технологии поддержки конкретно-исторических исследований (ПКИИ), построенной на принципах сотворчества и краудсорсинга и ориентированной на широкий круг не относящихся к профессиональным историкам и биографам пользователей. Статья посвящена дальнейшему развитию темы подготовки данных для применяемых в технологии алгоритмов машинного обучения. Показана особая важность бинарной классификации для конкретно-исторического исследования. Описана проблема дисбаланса классов при проведении бинарной классификации с помощью алгоритмов машинного обучения и ее последствия. Показано, что конкретно-исторические данные могут быть сильно несбалансированными. Приведен обзор подходов к решению задачи устранения дисбаланса классов. Проведен анализ специфики конкретно-исторических данных, на его основе выбран подход oversampling как наиболее подходящий для технологии. Описаны алгоритмы, реализующие данный подход, оценены их достоинства и недостатки. Выбран алгоритм ADASYN как наиболее перспективный для использования в условиях технологии. Оценены возможности уже включенных в технологию средств борьбы с шумами в данных и выбросами для компенсации такого недостатка алгоритма ADASYN, как чувствительность к выбросам.

Ключевые слова: конкретно-историческое исследование, распределенная технология, машинное обучение, дисбаланс классов, алгоритм ADASYN.

Поступила в редакцию: 20.07.2023

DOI: 10.14357/08696527230414