Р. Н. Арифулов, Н. В. Попова, С. А. Науменко, “Оптимизация потоков данных в центре обработки геномных данных при помощи распределенной файловой системы Lustre”, ИТиВС, 2014, выпуск 1,страницы 35

ВЫСОКОПРОИЗВОДИТЕЛЬНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ

Оптимизация потоков данных в центре обработки геномных данных при помощи распределенной файловой системы Lustre

Р. Н. Арифулов^a, Н. В. Попова^a, С. А. Науменко^ab

^a Факультет биоинженерии и биоинформатики МГУ им. М. В. Ломоносова
^b Институт проблем передачи информации им. А.А. Харкевича РАН

Аннотация: Описывается архитектура центра обработки данных высокопроизводительного секвенирования. Для повышения производительности подсистемы ввода-вывода предлагается использование специализированных хранилищ данных с аппаратными RAID-контроллерами, распределение нагрузки по нескольким серверам данных с помощью распределенной файловой системы Lustre, выделение специализированных томов под ресурсоемкие задачи при помощи инфраструктуры Fiber Channel и кластерной файловой системы OCFS2.

Ключевые слова: центр обработки данных, big data, геномика, оптимизация, распределенная файловая система.