Аннотация:
В работе представлен метод, направленный на повышение надежности
байесовского классификатора. Метод заключается в добавлении
к обучающей выборке из смеси распределений двух исходных классов
искусственно сгенерированных наблюдений из третьего, “фонового” класса,
равномерно распределенного на компакте, содержащем неизвестный
носитель исходной смеси. Такая модификация позволяет приблизить
к заданному (в нашем случае к нулевому) уровню значение
дискриминантной функции вне носителя распределения обучающих данных.
Добавление варианта решения “Отказ от классификации”, принимаемого
классификатором при достаточно малых значениях дискриминантной
функции, приводит к локальному повышению его надежности. В частности,
такой подход позволяет решить несколько проблем:
отказаться от обработки данных, сильно отличающихся от обучающих;
выявлять аномальные значения во входных данных; отказаться от
принятия решений в “пограничных” областях при разделении на классы.
В статье приводится теоретическое обоснование оптимальности
предлагаемого классификатора. Практическая ценность метода
демонстрируется на задачах классификации изображений
и временных рядов.
Также предложена методика выделения доверенных областей,
которую можно использовать для выявления аномальных данных,
случаев смещения параметров распределения классов, выделения областей
пересечения распределений исходных классов. На основе доверенных
областей введены количественные показатели надежности и
эффективности классификатора.
Библиография: 23 названия.