Аннотация:
Недавние достижения технологий в области геномного секвенирования нового поколения (NGS — Next Generation Genome Sequencing) привели к значительному увеличению объема данных, которые должны быть обработаны, проанализированы и доступны заинтересованным исследователям. Это, в свою очередь, привело к повышению требований к вычислительным платформам обработки данных: потребовалось больше оперативной памяти и более мощные процессоры. Для эффективной обработки данных необходимы принципиально новые подходы в организации вычислений. Авторами статьи было проведено исследование возможности применения методов и подходов, используемых в физике высоких энергий, для объединения гетерогенных вычислительных ресурсов в единую вычислительную платформу. Была разработана полномасштабная система управления данными и заданиями на базе вычислительных мощностей Национального исследовательского центра «Курчатовский институт». В разработанную систему был интегрирован рабочий поток для обработки данных геномного секвенирования с использованием пакета PALEOMIX. Результаты апробации разработанной системы на задаче анализа древней ДНК мамонта показали существенное уменьшение общего времени выполнения задачи.