Аннотация:
Статья продолжает серию работ, посвященных технологии поддержки конкретно-исторических исследований (ПКИИ), построенной на принципах сотворчества и краудсорсинга и ориентированной на широкий круг не относящихся к профессиональным историкам и биографам пользователей. Статья посвящена дальнейшему развитию темы подготовки данных для применяемых в технологии алгоритмов машинного обучения. Показана особая важность бинарной классификации для конкретно-исторического исследования. Описана проблема дисбаланса классов при проведении бинарной классификации с помощью алгоритмов машинного обучения и ее последствия. Показано, что конкретно-исторические данные могут быть сильно несбалансированными. Приведен обзор подходов к решению задачи устранения дисбаланса классов. Проведен анализ специфики конкретно-исторических данных, на его основе выбран подход oversampling как наиболее подходящий для технологии. Описаны алгоритмы, реализующие данный подход, оценены их достоинства и недостатки. Выбран алгоритм ADASYN как наиболее перспективный для использования в условиях технологии. Оценены возможности уже включенных в технологию средств борьбы с шумами в данных и выбросами для компенсации такого недостатка алгоритма ADASYN, как чувствительность к выбросам.