Смешанные ядерные оценки многомерных распределений и их применение в задачах машинного обучения для классификации биологических объектов на основе спектральных измерений
Аннотация:
Рассматривается задача непараметрического восстановления многомерных плотностей распределения вероятностей в системах машинного обучения для классификации и аугментации данных. Предлагается метод получения смешанной ядерной непараметрической оценки плотности распределения как свертки ядерной оценки неизвестной плотности распределения вектора информативных признаков и известной или независимо оцениваемой плотности распределения вектора помеховой составляющей, сопровождающей процесс измерений. Анализируются свойства получаемых таким образом смешанных оценок. Приводятся результаты их сравнения с традиционной ядерной оценкой Парзена, применяемой непосредственно к общей выборке обучающих данных. Теоретически и экспериментально показывается, что использование смешанной оценки эквивалентно реализации процедуры аугментации – искусственного размножения обучающих данных в соответствии с известной или оцененной статистической моделью помеховой составляющей. Рассматриваются возможности применения смешанных оценок для обучения алгоритмов классификации биологических объектов (элементов зерновых смесей) на основе обработки измерений спектров пропускания в видимом и ближнем ИК-диапазонах длин волн.