A. V. Sulimov, A. N. Meshkov, I. A. Savkin, E. V. Katkova, D. K. Kutov, Z. B. Hasanova, N. V. Konovalova, V. V. Kukharchuk, V. B. Sulimov, “Genome-wide analysis of genetic associations for prediction of polygenic hypercholesterolemia with Bayesian networks”, J. Comp. Eng. Math., 2015, том 2, выпуск 4,страницы 11

Эта публикация цитируется в 7 статьях

Engineering Mathematics

Genome-wide analysis of genetic associations for prediction of polygenic hypercholesterolemia with Bayesian networks

[Полногеномный анализ генетических ассоциаций для предсказания полигенной гиперхолестеринемии с использованием байесовских сетей]

A. V. Sulimov^ab, A. N. Meshkov^c, I. A. Savkin^ab, E. V. Katkova^ab, D. K. Kutov^ab, Z. B. Hasanova^d, N. V. Konovalova^d, V. V. Kukharchuk^d, V. B. Sulimov^ab

^a Research Computing Center, Lomonosov Moscow State University, Moscow, Russian Federation
^b Dimonta Ltd., Moscow, Russian Federation
^c National Research Center for Preventive Medicine of the Ministry of Healthcare of the Russian Federation
^d Russian Cardiology Research and Production Complex of the Ministry of Healthcare of the Russian Federation, Moscow, Russian Federation

Аннотация: Проведен полногеномный анализ генетических ассоциаций с показателями липидного обмена с применением технологии байесовских сетей для постановки диагноза полигенной гиперхолестеринемии на основе генетических данных российской популяции пациентов. Были проанализированы данные 1200 пациентов, для каждого из которых кроме клинической информации, показателей липидного профиля — различных видов холестерина, были получены 196725 однонуклеотидных полиморфизмов (SNP). Для первоначального отбора наиболее значимых параметров использовался полногеномный анализ ассоциаций (GWAS) и статистический метод критерия согласия Пирсона. Были исследованы два состояния пациента связанные с липидным обменом: уровень ХС-ЛПНП (липопротеины низкой плотности) и ХС-ЛПВП (липопротеины высокой плотности). Для предсказания уровня липопротеинов использовались байесовские сети простейшей топологии — наивной, а для оценки качества (надежности) предсказания применялось построение ROC-кривых и вычисление площади под этими кривыми (AUC). После отбора значимых параметров с помощью методов GWAS или Пирсон величина AUC повышалась от 0,5 для начальной сети до 0,9. Дальнейшее повышение AUC до 0,99 и уменьшение числа прогностических параметров до 150 проводилось с помощью оптимизации байесовской сети по числу узлов-параметров, где целевой функцией была величина AUC. Показана неоднозначность получения прогностических параметров при различных способах первоначального уменьшения числа узлов сети с помощью метода GWAS и Pirson. Несмотря на очень хорошие результаты по качеству предсказания, полученные на обучающей выборке, для независимой контрольной группы пациентов были получены не высокие значения AUC. Дальнейшее применение предложенной в настоящей статье методологии возможно при существенном уменьшении числа SNP на основе анализа молекулярных механизмов.

Ключевые слова: GWAS; LDL-C; HDL-C; SNP; байесовская сеть.

УДК: 519.226.3, 616.153.922

MSC: 62C10, 92C50

Поступила в редакцию: 09.10.2015

Язык публикации: английский

DOI: 10.14529/jcem150402