51. Parallel Spherical Harmonic Transforms on heterogeneous architectures (GPUs/multi-core CPUs)
- Author
-
Szydlarski, Mikolaj, Esterie, Pierre, Falcou, Joel, Grigori, Laura, Stompor, R., Global parallel and distributed computing (GRAND-LARGE), Laboratoire de Recherche en Informatique (LRI), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Laboratoire d'Informatique Fondamentale de Lille (LIFL), Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), APC - Gravitation (APC-Gravitation), AstroParticule et Cosmologie (APC (UMR_7164)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Institut National de Physique Nucléaire et de Physique des Particules du CNRS (IN2P3)-Observatoire de Paris, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Institut National de Physique Nucléaire et de Physique des Particules du CNRS (IN2P3)-Observatoire de Paris, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS)-Max-Planck-Institut für Gravitationsphysik ( Albert-Einstein-Institut ) (AEI), Max-Planck-Gesellschaft-Max-Planck-Gesellschaft, Centre National de la Recherche Scientifique (CNRS)-Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Paris-Sud - Paris 11 (UP11)-Laboratoire d'Informatique Fondamentale de Lille (LIFL), Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Laboratoire de Recherche en Informatique (LRI), Université Paris-Sud - Paris 11 (UP11)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-CentraleSupélec, Observatoire de Paris, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Physique Nucléaire et de Physique des Particules du CNRS (IN2P3)-Observatoire de Paris, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Physique Nucléaire et de Physique des Particules du CNRS (IN2P3)-Max-Planck-Institut für Gravitationsphysik ( Albert-Einstein-Institut ) (AEI), Institut National de Physique Nucléaire et de Physique des Particules du CNRS (IN2P3)-Centre National de la Recherche Scientifique (CNRS)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Observatoire de Paris, PSL Research University (PSL)-PSL Research University (PSL)-Université Paris Diderot - Paris 7 (UPD7)-Institut National de Physique Nucléaire et de Physique des Particules du CNRS (IN2P3)-Centre National de la Recherche Scientifique (CNRS)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Observatoire de Paris, and PSL Research University (PSL)-PSL Research University (PSL)-Université Paris Diderot - Paris 7 (UPD7)-Max-Planck-Institut für Gravitationsphysik ( Albert-Einstein-Institut ) (AEI)
- Subjects
[PHYS.PHYS.PHYS-AO-PH]Physics [physics]/Physics [physics]/Atmospheric and Oceanic Physics [physics.ao-ph] ,hybrid architectures ,[SDU.ASTR.CO]Sciences of the Universe [physics]/Astrophysics [astro-ph]/Cosmology and Extra-Galactic Astrophysics [astro-ph.CO] ,[SDU.STU.GP]Sciences of the Universe [physics]/Earth Sciences/Geophysics [physics.geo-ph] ,[SDE.MCG]Environmental Sciences/Global Changes ,hybrid programming ,OpenMP ,CUDA ,[PHYS.PHYS.PHYS-GEO-PH]Physics [physics]/Physics [physics]/Geophysics [physics.geo-ph] ,CMB ,Multi-GPU ,[PHYS.ASTR.CO]Physics [physics]/Astrophysics [astro-ph]/Cosmology and Extra-Galactic Astrophysics [astro-ph.CO] ,Spherical Harmonic Transforms ,[INFO.INFO-DC]Computer Science [cs]/Distributed, Parallel, and Cluster Computing [cs.DC] - Abstract
Spherical Harmonic Transforms (SHT) are at the heart of many scientific and practical applications ranging from climate modelling to cosmological observations. In many of these areas new, cutting-edge science goals have been recently proposed requiring simulations and analyses of experimental or observational data at very high resolutions and of unprecedented volumes. Both these aspects pose formidable challenge for the currently existing implementations of the transforms. This paper describes parallel algorithms for computing the SHTs with two variants of intra-node parallelism appropriate for novel supercomputer architectures, multi-core processors and Graphic Processing Units (GPU) and discusses their performance tests, alone and embedded within a top-level, MPI-based parallelization layer ported from the S$^2$HAT library, in terms of their accuracy, overall efficiency and scalability. We show that our inverse SHTs with GeForce 400 Series GPUs equipped with latest CUDA architecture ("Fermi") outperforms the state of the art implementation for a multi-core processor executed on a current Intel Core i7-2600K. Furthermore, we show that an MPI/CUDA version of the inverse transform run on a cluster of 128 NVIDIA Tesla S1070 is as much as 3 times faster than the hybrid MPI/OpenMP version executed on the same number of quad-core processors Intel Nahalem for problem sizes motivated by our target applications. For the direct transforms, the performance is however found to be at the best comparable. Here we discuss in detail optimizations of two major steps involved in the transforms calculation, demonstrating how the overall performance efficiency can be obtained, and elucidating the sources of the dichotomy between the direct and the inverse operations; Les transformations en harmoniques sphériques (SHT) sont au cœur de nombreuses applications scientifiques et pratiques allant de la modélisation du climat aux observations cosmologiques. Ces domaines nécessitent des simulations et des analyses de données expérimentales engendrant des larges volumes de données. Ceci représente un défi important pour les implémentations actuelles des transformations en harmoniques sphériques. Ce papier décrit la mise en œuvre multi CPU-GPU d'une SHT inverse, basée sur une programmation hybride, combinant MPI et CUDA. Nous comparons les performances de la version multi GPU par rapport à une version hybride MPI / OpenMP de la même transformation. Nous constatons qu'une NVIDIA Tesla S1070 peut exécuter la SHT 3 fois plus rapidement que la version MPI / OpenMP exécutée sur un processeur quad-core (Intel Nehalem cadencé à 2,93 GHz) . De plus, en raison d'un très bon passage à l'échelle des deux versions, 128 cartes Tesla donnent d'aussi bonnes performances que 256 processeurs à 12 coeurs (AMD Op te ron 2,1 GHz).
- Published
- 2012