L. V. Utkin, I. L. Utkina, “A high-performance genome-wide association study algorithm based on analysis of pairs of individuals”, Тр. СПИИРАН, 2018, выпуск 58,страницы 5

Искусственный интеллект, инженерия данных и знаний

A high-performance genome-wide association study algorithm based on analysis of pairs of individuals

[Быстродействующий алгоритм полногеномного поиска ассоциаций на основе анализа пар объектов]

L. V. Utkin^a, I. L. Utkina^ba

^a Peter the Great Saint-Petersburg Polytechnic University
^b Skolkovo Institute of Science and Technology

Аннотация: Предложен простой быстродействующий алгоритм полногеномного поиска ассоциаций для оценки основного и эпистатического эффекта влияния маркеров или единичных нуклеотидных полиморфизмов (SNP). Основная идея, лежащая в основе алгоритма, заключается в сравнении генотипов пар объектов популяции и сравнении соответствующих значений фенотипа. В алгоритме используется интуитивное предположение, что изменения аллелей, соответствующих важным SNP у пары объектов, приводят к большому различию значений фенотипа этих индивидуумов. Алгоритм основан на рассмотрении пар индивидуумов вместо SNP или пар SNP. Основным преимуществом алгоритма является то, что он слабо зависит от количества SNP в матрице генотипов. В основном он зависит от количества объектов, которое, как правило, очень мало по сравнению с количеством SNP. Другое важное преимущество алгоритма заключается в том, что он позволяет без дополнительных вычислений обнаруживать эпистатический эффект, рассматриваемый как взаимодействие генов. Алгоритм также может использоваться в случае, когда фенотип принимает только два значения (схема случай–контроль). Кроме того, алгоритм может быть достаточно просто расширен с анализа двоичной матрицы генотипов на случай количественного анализа экспрессии генов. Численные эксперименты с реальными наборами данных, состоящими из популяций удвоенных гаплоидных линий ячменя, иллюстрируют преимущество предлагаемого алгоритма по сравнению со стандартными алгоритмами полногеномного поиска ассоциаций с вычислительной точки зрения, особенно для обнаружения эпистатического эффекта. Пути для повышения эффективности предлагаемого алгоритма также обсуждаются в статье.

Ключевые слова: полногеномный поиск ассоциаций, ANOVA, машинное обучение, эпистаз, SNP, метрика расстояния.

УДК: 006.72

Поступила в редакцию: 30.09.2017

Язык публикации: английский

DOI: 10.15622/sp.58.1