Аннотация:
Для идентификации однонуклеотидных полиморфизмов в последовательностях молекул ДНК предложен подход, основанный на имитационном моделировании сайтов отдельных нуклеотидов с использованием генерации случайных событий по бета-распределению или нормальному распределению, параметры которых оцениваются на базе имеющихся экспериментальных данных. Разработанный подход повышает точность определения однонуклеотидных полиморфизмов в молекулах ДНК и позволяет исследовать достоверность результатов отдельных экспериментов и оценить точность параметров, полученных в реальных условиях проведения эксперимента. Имитационная модель и методы анализа верифицированы на наборе данных геномного секвенирования молекул ДНК человека, предоставленных консорциумом GIAB (Genome in a Bottle Consortium). Выполнен сравнительный анализ известных статистических алгоритмов идентификации однонуклеотидных полиморфизмов и методов машинного обучения, параметры которых настраиваются по смоделированным данным геномного секвенирования молекул ДНК человека. Лучшие результаты получены для моделей машинного обучения, у которых точность идентификации сайтов однонуклеотидных полиморфизмов на $2-5 \%$ выше, чем у классических статистических методов.