Аннотация:
В данной работе проведен сравнительный анализ раздельной и комбинированной (“микс”) сборки метатранскриптомных данных для исследования вирусных сообществ в нескольких образцах на примере четырех метатранскриптомов эндемичных байкальских моллюсков Benedictia baicalensis. Анализ показал, что микс-сборка по сравнению с раздельной сборкой образцов увеличивает количество вирусных контигов (или скаффолдов) на образец, количество идентифицированных виротипов, среднюю длину скаффолдов на образец и долю собранных вирусных прочтений от общего количества прочтений в образцах. Микс-геномные de novo сборки с использованием скрытых марковских моделей для идентификации вирусов представляют данные в виде таблицы с количеством прочтений из разных образцов для каждого скаффолда (таблица представленности). Такая таблица позволяет сравнивать образцы по представленности всех вирусных скаффолдов, в том числе, не имеющих аналогов в известных базах данных, то есть для которых не удалось установить таксономическую принадлежность. Таким образом, микс-геномные сборки позволяют проводить сравнительный анализ с учетом скрытого разнообразия вирусов. В работе предложен конвейер по анализу данных метатранскриптомов с применением микс-геномной de novo сборки для исследования вирусов, которым могут воспользоваться другие исследователи.