RUS  ENG
Полная версия
ЖУРНАЛЫ // Препринты Института прикладной математики им. М. В. Келдыша РАН // Архив

Препринты ИПМ им. М. В. Келдыша, 2024, 053, 12 стр. (Mi ipmp3263)

Об оценках интегрального риска предиктора липшицевых функций в моделях машинного обучения

Ю. С. Чайников, В. А. Судаков


Аннотация: Несбалансированность классов в доступных обучающих выборках при решении задач машинного обучения в большинстве практических случаев затрудняет тренировку предикторов, эффективно обобщающих закономерности обучающего датасета на генеральную совокупность. В работе исследованы теоретические основания эффективности добавления в обучающую выборку синтетических данных. В оценке общего риска выделено два типа ошибок: ошибка репрезентации и ошибка уклонения. Сформулированы практические рекомендации по созданию синтетических выборок, уклоняющихся в своем распределении от репрезентативных по плотности распределения аргумента, с более частыми сэмплами в тех областях, где плотность распределения аргумента имеет относительно малые значения, что ведет к уменьшению размера соответствующих ячеек Вороного и уменьшению вклада ошибки уклонения в общий риск.

Ключевые слова: синтетические данные, машинное обучение, ячейки Вороного, предиктор, обучающая выборка, общий риск, эмпирический риск, ошибка репрезентации, ошибка уклонения.

DOI: 10.20948/prepr-2024-53



© МИАН, 2024