Аннотация:
Работа посвящена выбору размерности модели факторизации матрицы с пропущенными элементами. Задача оценивания параметров принятой модели данных решается путем многомерной оптимизации квадратичной целевой функции. Оценивание значения сниженной размерности — типичный пример задачи выбора модели, когда в ходе анализа данных возникает альтернатива, а выбор означает либо выяснение предпочтений отдельных вариантов, либо выделение «лучшего» представителя. Обычно применяемые критерии выбора основываются на функции правдоподобия, для чего требуются вероятностные предположения относительно данных. Но при оценивании параметров рассматриваемой факторной модели они не задаются, а вводить их нецелесообразно, ибо можно нарушить общность сформулированной задачи снижения размерности. Поэтому была предпринята попытка обратиться к идее использовать имеющиеся данные для целей статистического вывода повторно. Ни один из существующих подходов (бутстреп, складного ножа, перепроверки, а также перестановочные тесты) не подходит, поэтому был предложен оригинальный метод формирования новых данных путем дополнительных пропусков элементов исходной матрицы. Для обработки сформированных выборок предлагается использовать комбинацию модели смеси нормальных распределений совместно с ядерным сглаживанием. Предложенные решения позволяют корректно проводить процедуру обоснования размерности принятой модели факторизации. Изложение иллюстрируется примером обработки синтетических данных.