Аннотация:
Для метода ближайших соседей (kNN) существует общеизвестное аналитическое выражение для разложения ошибки регрессионной модели на смещение и разброс. Однако данное выражение справедливо только для классической постановки задачи регрессионного анализа, в которой случайной является только целевая переменная, а «объясняющие» переменные неслучайны. Получены аналитические выражения для разложения для некоторых постановок, когда все переменные являются случайными. В отличие от классической постановки в полученных выражениях компонента разброса демонстрирует различное поведение при разной размерности пространства, в частности, при размерности 1 разброс практически линейно увеличивается с ростом k, т.е. уменьшается с ростом сложности. Подобное поведение разложения на смещение и разброс является нежелательным его свойством при использовании для объяснения структуры ошибок обучения. В связи с этим представляется целесообразным использовать разложение ошибки на погрешность аппроксимации и статистическую погрешность. Компоненты последнего разложения всегда монотонны.
Ключевые слова:разложение на смещение и разброс, машинное обучение, метод k-ближайших соседей, проблема переобучения.