S. S. Khrapov, S. A. Khoperskov, A. V. Khoperskov, “New features of parallel implementation of $N$-body problems on GPU”, Вестн. ЮУрГУ. Сер. Матем. моделирование и программирование, 2018, том 11, выпуск 1,страницы 124

Эта публикация цитируется в 5 статьях

Программирование

New features of parallel implementation of $N$-body problems on GPU

[Особенности параллельной реализации численных моделей $N$-тел на GPU]

S. S. Khrapov^a, S. A. Khoperskov^b, A. V. Khoperskov^a

^a Volgograd State University, Volgograd, Russian Federation
^b Institute of Astronomy, Russian Academy of Sciences, Moscow, Russian Federation

Аннотация: Рассмотрены особенности параллельной реализации прямого гравитационного моделирования $N$-тел на нескольких GPU с использованием технологии GPU-Direct. Подробно описан параллельный алгоритм решения задачи $N$-тел, основанный на гибридной технологии распараллеливания OpenMP-CUDA с количеством частиц $N\sim 10^5\div 10^7$. Исследована эффективность распараллеливания нашего алгоритма для различных GPU линейки Nvidia Tesla (K20, K40, K80) при моделировании динамики гравитационно-неустойчивого звездного галактического диска. Изучена производительность и точность моделирования при использовании чисел одинарной и двойной точности. Так, например, для процессора Nvidia Tesla K80 время вычислений с двойной точностью оказалась всего лишь в $1,85$ раз больше чем для одинарной точности. Показано, что использовать числа с одинарной точностью при моделировании на GPU сильно несимметричных систем взаимодействующих $N$-тел схемами второго порядка точности по времени некорректно, так как это приводит к значительным количественным и качественным искажениям результата. Так, например, для чисел одинарной точности после $10^4$ шагов по времени полные энергия, импульс и момент импульса системы $N$-тел ($N=2^{20}$) сохранились с точностью менее $2\cdot 10^{-3}$, $4\cdot 10^{-2}$ и $7\cdot 10^{-3}$, соответственно. Для чисел двойной точности эти законы сохранения выполнялись с точностью более $5\cdot 10^{-5}$, $10^{-15}$ и $10^{-13}$, соответственно. Наши оценки показывают, что по шкале производительность–точность использование схем второго порядка точности по времени наряду с числами двойной точности оказывается на $20$–$30\%$ более эффективно, чем схем четвертого порядка с числами одинарной точности.

Ключевые слова: Multi-GPU; OpenMP-CUDA; GPU-Direct; Nvidia Tesla; задача $N$-тел; одинарная и двойная точность численных решений; звездный галактический диск; гравитационная неустойчивость.

УДК: 502.57

MSC: 34N05, 37M05, 68U20

Поступила в редакцию: 22.01.2018

Язык публикации: английский

DOI: 10.14529/mmp180111