Аннотация:
Рассматривается подход к решению задачи удаления шума в большом массиве разреженных данных, основанный на методе контроля средней доли ложных отклонений гипотез (False Discovery Rate, FDR). Данный подход эквивалентен процедурам пороговой обработки, обнуляющим компоненты массива, значения которых не превосходят некоторого заданного порога. Наблюдения в модели считаются слабо зависимыми. Для контроля степени зависимости используются ограничения на коэффициент сильного перемешивания и максимальный коэффициент корреляции. В качестве меры эффективности рассматриваемого подхода используется среднеквадратичный риск. Вычислить значение риска можно только на тестовых данных, поэтому в работе рассматривается его статистическая оценка и исследуются ее свойства. Показана асимптотическая нормальность и сильная состоятельность оценки риска при использовании FDR-порога в условиях слабой зависимости в данных.