Аннотация:
В настоящее время в качестве аналитической системы в различных медико-биологических исследованиях применяются биологические микрочипы, содержащие нуклеотиды, белки, пептиды, гликаны и другие биологические молекулы. Современные микрочипы активно модифицируются, увеличивается количество и плотность иммобилизированных молекул. Обработка больших массивов данных, полученных с помощью микрочипов, требует оптимизации алгоритмов их анализа. Данные получение на пептидных микрочипах имеют некоторые особенности и требует применения нестандартных методов статистического анализа. В настоящей работе представлены результаты анализа репертуара антител в сыворотках пациентов с диагнозом раком молочной железы, полученных с помощью микрочипов, содержащих 330 тысяч пептидов. Исследование методов уменьшения размерности, в частности, проекционных методов и методов отбора информативных признаков показало, что метод проекции на латентные структуры позволяет выявить эффективную размерность данных, уменьшить эффект переобучения модели и улучшить качество распознавания объектов. Точность результатов эксперимента оценена при помощи ROC-кривой, и наилучшее качество достигнуто с использованием трёх латентных структур без предварительной нормализации и с использованием всех пептидов.
Ключевые слова:микрочипы, пептиды, нормализация, латентные переменные, кластеризация, ROC-кривая, метод проекции на латентные структуры.
УДК:
57.087
Материал поступил в редакцию 04.07.2017, опубликован 29.11.2017