Аннотация:
Статья посвящена проблеме восстановления про́пусков в коллекциях данных для задач машинного обучения. Предложен новый рандомизированный метод восстановления пропущенных данных, основанный на технологии энтропийно-робастного оценивания и генерации ансамблей случайных величин. Предложенный метод схож с использованием вспомогательной регрессии для восстановления пропущенных значений, но в отличие от последней в случае энтропийного оценивания не накладываются дополнительные ограничения на функцию правдоподобия ошибок в выборке и допустимы малые объемы данных, что становится крайне актуальным в задачах, когда объем данных для обучения ограничен, а пропуски встречаются не систематически. Предложенный метод применяется для восстановления пропущенных данных о площадях термокарстовых озер арктической зоны РФ, измеряемых по спутниковым снимкам.