|
СЕМИНАРЫ |
Заседания Московского математического общества
|
|||
|
Новые статистические методы и их применение к анализу генетических данных А. В. Булинский |
|||
Аннотация: Считается, что сложные заболевания (такие как диабет, болезнь Альцгеймера и другие) обусловлены как генетическими, так и внешними факторами риска. Очень сложной является задача выявления наиболее значимых наборов факторов, способных вызвать то или иное заболевание. В докладе рассматриваются различные постановки этой задачи. В частности, доказана оптимальность определенных стохастических алгоритмов, опирающихся на кросс-валидацию. Для этого используются варианты законов больших чисел в схеме серий. Большое внимание уделяется многофакторному понижению размерности (MDR-методу), введенному M. D. Ritchie et al. Установлена теорема, дающая обоснование для применения этого метода. Кроме того, получена новая версия метода MDR «с независимым правилом», предложенная докладчиком и его соавторами. Обсуждаются и различные варианты метода логической регрессии, инициированного I. Ruczinski et al., а также возможности современных методов стохастической оптимизации (метод отжига). Затрагиваются также методы машинного обучения. Нами показано, что сочетание техники кросс-валидации, бутстрэпа и некоторых усреднений сглаженных оценок позволяет повысить качество оценивания функции отклика. Указанные выше методы и подходы используют аппарат теории графов, марковские и гиббсовские случайные поля, а также комбинаторный анализ. Их применение будет продемонстрировано при изучении влияния генетических данных (нуклеотидных полиморфизмов) и внешних факторов на риски сердечно-сосудистых заболеваний. Это исследование было начато в 2010 году в рамках общего проекта, осуществляемого в сотрудничестве с факультетом фундаментальной медицины МГУ (руководители проекта академики РАН В. А. Садовничий и В. А. Ткачук). При реализации разрабатываемых методов был использован суперкомпьютер МГУ «Чебышев». |