Алгебро-логические методы в информатике и искусственный интеллект
On the accuracy of cross-validation in the classification problem
[О точности оценок скользящего экзамена в задаче классификации]
V. M. Nedel'ko Sobolev Institute of Mathematics SB RAS, Novosibirsk, Russian Federation
Аннотация:
Метод скользящего экзамена (K-fold cross-validation) является наиболее часто используемым методом оценивания качества решений в задачах машинного обучения. Несмотря на большое число работ, посвященных исследованию данного подхода, остается открытой проблема оценивания точности получаемых оценок качества. В частности, в настоящее время неизвестны доверительные интервалы для оценки скользящего экзамена, существуют лишь очень грубые оценки таких интервалов.
Основной идеей работы является схема статистического моделирования, которая позволяет использовать реальные данные для получения статистических оценок, которые обычно получаются только при использовании модельных распределений. Предложенный подход позволяет достаточно точно вычислять как общую погрешность оценок скользящего экзамена, так и отдельные ее компоненты (смещение, дисперсию), а также оценивать связь этой погрешности с различными статистиками.
Использование повторяющегося скользящего экзамена со случайным разбиением на подвыборки также не дает принципиального выигрыша в точности. Результаты экспериментов позволяют сформулировать эмпирическую оценку, что точность оценок, полученных методом скользящего экзамена приблизительно такая же, как точность оценок, полученных по контрольной выборке, вдвое меньшего объема. Этот результат легко объяснить тем фактом, что все объекты контрольной выборки независимы, а оценки, построенные скользящим экзаменом на разных подвыборках, не являются независимыми.
Ключевые слова:
построение решающих функций, скользящий экзамен, точность статистических оценок, машинное обучение.
УДК:
519.246
MSC: 68T10,
62H30 Поступила в редакцию: 30.10.2021
Язык публикации: английский
DOI:
10.26516/1997-7670.2021.38.84