RUS  ENG
Полная версия
ЖУРНАЛЫ // Математическая биология и биоинформатика // Архив

Матем. биология и биоинформ., 2024, том 19, выпуск 2, страницы 338–353 (Mi mbb563)

Биоинформатика

Ускорение алгоритма 3SEQ для поиска рекомбинантных геномных последовательностей за счёт многопоточности и учета дат сбора образцов

А. П. Девятериковa, А. Ю. Пальяновabc

a Институт систем информатики им. А. П. Ершова СО РАН, Новосибирск, Россия
b Новосибирский государственный университет, Новосибирск, Россия
c НИИ вирусологии ФИЦ ФТМ, Новосибирск, Россия

Аннотация: В статье представлена эффективная многопоточная реализация современного алгоритма 3SEQ для выявления рекомбинантных генетических последовательностей, протестированная на вирусных геномах. Работа проводилась в рамках проекта по созданию отечественного программного комплекса (bioprojects.iis.nsk.su) для решения широкого спектра задач, связанных с анализом данных в области биоинформатики, вирусологии и эпидемиологии. Рекомбинантный вирусный геном получается в результате обмена частями геномов двух разных вариантов вирусов одного вида, что возможно при заражении одновременно обоими вариантами. Возникновение рекомбинантов – это редкие, но важные события в контексте изучения эволюции вируса. Одним из наиболее перспективных среди существующих алгоритмов для поиска рекомбинантов представляется 3SEQ, однако авторская версия работает только в однопоточном режиме. Мы реализовали этот алгоритм с поддержкой многопоточных вычислений и учетом дат сбора образцов, что обеспечило значительный прирост скорости вычислений. С помощью созданного программного обеспечения осуществлён поиск рекомбинантов в выборках геномов вирусов гриппа A H1N1 (анализировались только сегменты PB2 из 2174 геномов), лихорадки Денге (726 геномов), вируса Эбола (865 геномов) и в двух выборках геномов коронавируса SARS-CoV-2 (776 и 2132 генома). Для гриппа A H1N1 (сегмент PB2) и первого набора данных по SARS-CoV-2 (выборка по России) рекомбинантов найдено не было, что находится в согласии с анализом тех же данных алгоритмом RDP. Для второго набора данных по SARS-CoV-2 (выборка по Сибирскому федеральному округу) был правильно найден единственный присутствовавший рекомбинант. У вирусов лихорадки Денге найдено 725 рекомбинантов с длиной района рекомбинации в интервале от 50 до 1000 нуклеотидов. У вирусов Эбола длина района рекомбинации оказалась короче – у 572 рекомбинантов она находится в диапазоне от 50 до 100 нуклеотидов, у 249 геномов – менее 50 нуклеотидов.

Ключевые слова: вирусология, биоинформатика, поиск рекомбинантов, алгоритм 3SEQ, программа, многопоточность, ускорение вычислений.

Материал поступил в редакцию 30.09.2024, 10.10.2024, опубликован 05.11.2024

DOI: 10.17537/2024.19.338



Реферативные базы данных:


© МИАН, 2025