RUS  ENG
Полная версия
ЖУРНАЛЫ // Известия Иркутского государственного университета. Серия «Математика» // Архив

Известия Иркутского государственного университета. Серия Математика, 2023, том 43, страницы 110–121 (Mi iigum519)

Алгебро-логические методы в информатике и искусственный интеллект

On the properties of bias-variance decomposition for kNN regression

[О свойствах разложения функции потерь на смещение и разброс для метода kNN]

Victor M. Nedel'ko

Sobolev Institute of Mathematics SB RAS, Novosibirsk, Russian Federation

Аннотация: Для метода ближайших соседей (kNN) существует общеизвестное аналитическое выражение для разложения ошибки регрессионной модели на смещение и разброс. Однако данное выражение справедливо только для классической постановки задачи регрессионного анализа, в которой случайной является только целевая переменная, а «объясняющие» переменные неслучайны. Получены аналитические выражения для разложения для некоторых постановок, когда все переменные являются случайными. В отличие от классической постановки в полученных выражениях компонента разброса демонстрирует различное поведение при разной размерности пространства, в частности, при размерности 1 разброс практически линейно увеличивается с ростом k, т.е. уменьшается с ростом сложности. Подобное поведение разложения на смещение и разброс является нежелательным его свойством при использовании для объяснения структуры ошибок обучения. В связи с этим представляется целесообразным использовать разложение ошибки на погрешность аппроксимации и статистическую погрешность. Компоненты последнего разложения всегда монотонны.

Ключевые слова: разложение на смещение и разброс, машинное обучение, метод k-ближайших соседей, проблема переобучения.

УДК: 519.246

MSC: 68T10, 62H30

Поступила в редакцию: 05.12.2022
Исправленный вариант: 16.01.2023
Принята в печать: 23.01.2023

Язык публикации: английский

DOI: 10.26516/1997-7670.2023.43.110



© МИАН, 2024