Аннотация:
Сложные задачи, возникающие в генетике, стимулируют развитие статистических методов, способных оперировать с данными гигантских размерностей и учитывающих разнообразные формы зависимости различных факторов. Среди рассматриваемых в докладе новых статистических методов основное внимание уделяется многофакторному понижению размерности (MDR-метод), введенному M. D. Ritchie et al. Дается новая модификация этого метода, предложенная докладчиком и его учениками в 2011 году. Кроме того, обсуждаются различные варианты метода логической регрессии, инициированного I. Ruczinski et al., а также возможности современных методов стохастической оптимизации (метод отжига). Затрагиваются также методы машинного обучения. Нами показано, что сочетание техники кросс-валидации, бутстрэпа и определенных усреднений сглаженных оценок позволяет повысить качество оценивания функции отклика. Указанные выше методы и подходы используют аппарат теории графов, марковские и гиббсовские случайные поля, а также комбинаторный анализ. Их применение будет продемонстрировано при анализе влияния генетических данных (нуклеотидных полиморфизмов) и внешних факторов на риски кардио-васкулярных заболеваний. Это исследование было начато в 2010 году в рамках общего проекта, осуществляемого в сотрудничестве с факультетом фундаментальной медицины МГУ и направленного на изучение рисков сложных заболеваний (руководители проекта академики РАН В. А. Садовничий и В. А. Ткачук). При реализации разрабатываемых методов понадобилось создать соответствующее программное обеспечение и использовать суперкомпьютер МГУ «Чебышев».
|