Аннотация:
В статье представлена эффективная многопоточная реализация современного алгоритма 3SEQ для выявления рекомбинантных генетических последовательностей, протестированная на вирусных геномах. Работа проводилась в рамках проекта по созданию отечественного программного комплекса (bioprojects.iis.nsk.su) для решения широкого спектра задач, связанных с анализом данных в области биоинформатики, вирусологии и эпидемиологии. Рекомбинантный вирусный геном получается в результате обмена частями геномов двух разных вариантов вирусов одного вида, что возможно при заражении одновременно обоими вариантами. Возникновение рекомбинантов – это редкие, но важные события в контексте изучения эволюции вируса. Одним из наиболее перспективных среди существующих алгоритмов для поиска рекомбинантов представляется 3SEQ, однако авторская версия работает только в однопоточном режиме. Мы реализовали этот алгоритм с поддержкой многопоточных вычислений и учетом дат сбора образцов, что обеспечило значительный прирост скорости вычислений. С помощью созданного программного обеспечения осуществлён поиск рекомбинантов в выборках геномов вирусов гриппа A H1N1 (анализировались только сегменты PB2 из 2174 геномов), лихорадки Денге (726 геномов), вируса Эбола (865 геномов) и в двух выборках геномов коронавируса SARS-CoV-2 (776 и 2132 генома). Для гриппа A H1N1 (сегмент PB2) и первого набора данных по SARS-CoV-2 (выборка по России) рекомбинантов найдено не было, что находится в согласии с анализом тех же данных алгоритмом RDP. Для второго набора данных по SARS-CoV-2 (выборка по Сибирскому федеральному округу) был правильно найден единственный присутствовавший рекомбинант. У вирусов лихорадки Денге найдено 725 рекомбинантов с длиной района рекомбинации в интервале от 50 до 1000 нуклеотидов. У вирусов Эбола длина района рекомбинации оказалась короче – у 572 рекомбинантов она находится в диапазоне от 50 до 100 нуклеотидов, у 249 геномов – менее 50 нуклеотидов.