RUS  ENG
Полная версия
ЖУРНАЛЫ // Успехи математических наук // Архив

УМН, 2024, том 79, выпуск 6(480), страницы 57–82 (Mi rm10208)

Экстраполяция байесовского классификатора при неизвестном носителе распределения смеси двух классов

К. С. Лукьяновabc, П. А. Яськовde, А. И. Перминовac, А. П. Коваленкоf, Д. Ю. Турдаковac

a Институт системного программирования им. В. П. Иванникова Российской академии наук, Москва, Россия
b Московский физико-технический институт (национальный исследовательский университет), Москва, Россия
c Исследовательский центр доверенного искусственного интеллекта ИСП РАН, Москва, Россия
d Математический институт им. В. А. Стеклова Российской академии наук, Москва, Россия
e Университет науки и технологий МИСИС, Москва, Россия
f Академия криптографии Российской Федерации, Москва, Россия

Аннотация: В работе представлен метод, направленный на повышение надежности байесовского классификатора. Метод заключается в добавлении к обучающей выборке из смеси распределений двух исходных классов искусственно сгенерированных наблюдений из третьего, “фонового” класса, равномерно распределенного на компакте, содержащем неизвестный носитель исходной смеси. Такая модификация позволяет приблизить к заданному (в нашем случае к нулевому) уровню значение дискриминантной функции вне носителя распределения обучающих данных. Добавление варианта решения “Отказ от классификации”, принимаемого классификатором при достаточно малых значениях дискриминантной функции, приводит к локальному повышению его надежности. В частности, такой подход позволяет решить несколько проблем: отказаться от обработки данных, сильно отличающихся от обучающих; выявлять аномальные значения во входных данных; отказаться от принятия решений в “пограничных” областях при разделении на классы.
В статье приводится теоретическое обоснование оптимальности предлагаемого классификатора. Практическая ценность метода демонстрируется на задачах классификации изображений и временных рядов.
Также предложена методика выделения доверенных областей, которую можно использовать для выявления аномальных данных, случаев смещения параметров распределения классов, выделения областей пересечения распределений исходных классов. На основе доверенных областей введены количественные показатели надежности и эффективности классификатора.
Библиография: 23 названия.

Ключевые слова: машинное обучение, байесовский классификатор, доверенное машинное обучение, интерпретируемость, OOD, классификация изображений, классификация временных рядов, отказ от классификации, фоновый класс.

УДК: 004.8+519.6

Поступила в редакцию: 05.09.2024

DOI: 10.4213/rm10208



© МИАН, 2024