Аннотация:
Описана реализация конечно-разностного метода на сдвинутых сетках (FDTD) для решения задач электродинамики, в том числе нанооптики, требующих больших вычислительных ресурсов. Реализация основана на локально-рекурсивном нелокально-асинхронном (LRnLA) алгоритме DiamondTorre, эффективном при расчетах на графических процессорах общего назначения (GPGPU).
Обсуждаются особенности алгоритма DiamondTorre для задач на сдвинутых сетках (на основе ячейки Йи) при реализации на многопроцессорном кластере с гибридной архитектурой. Алгоритмы реализованы с использованием технологий CUDA, OpenMP и MPI в программном комплексе, предназначенном для решения реальных физических задач. Пределы производительности оценены из параметров алгоритма и модели roofline суперкомпьютера TSUBAME2.5. Полученные оценки сравниваются с реальной производительностью программного комплекса как на одном вычислительном устройстве, так и при параллельном масштабировании в слабой и сильной метриках. При этом достигнута производительность до $0.65\cdot10^{12}$ обновлений ячеек в секунду для трëхмерной области с количеством ячеек $0.3\cdot10^{12}$.