Аннотация:
Рассмотрена задача отбора признаков классификации и вопросы оценивания качества получаемых решений. Среди различных методов отбора признаков внимание обращено на последовательные процедуры; мерой качества классификации выбрана вероятность правильной классификации. Для оценивания этой характеристики предложено использовать метод перепроверки и бутстреп-метод, а для исследования ряда выборочных значений — сравнительный анализ доверительных интервалов и критерии однородности биномиальных пропорций. При построении байесовского классификатора для данных применялась модель смеси нормальных распределений; ее параметры оценивались с помощью EM (expectation–maximization) алгоритма. В качестве эксперимента рассмотрена задача обоснованного выбора признаков классификации при прогнозировании типа мочевых камней в урологии. Показано, что сокращать совокупность анализируемых показателей можно не только без потери качества принимаемых решений, но и с повышением вероятности правильного прогноза типа камня.
Ключевые слова:селекция признаков; последовательная селекция вперед и назад; байесовская классификация данных; проверка однородности двоичных последовательностей; прогноз типа камня в урологии.