大規模GPUクラスタにおけるN体計算コードの演算性能とスケーラビリティの評価

Search this article

Abstract

我々は, CUDA/OpenMP/MPI を用いて実装した N 体計算コードを最適化し,大規模 GPU クラスタ上で性能評価を行った.本実装では,スケーラビリティを向上させるために,ノード間の通信回数を削減し,またノード間・ノード内の通信を計算と同時に行うことによって通信時間を隠蔽した.筑波大学の HA-PACS (Highly Accelerated Parallel Advanced system for Computational Sciences) 上での性能測定の結果,高い演算性能,並列化効率が得られることが確かめられた. GPU 当たりの粒子数が 8192 体未満の場合にはスーパーリニア・スケーリングを示し, 8192 体以上の場合には並列化効率はほぼ 100% となった. NVIDIA Tesla M2090 を 256 枚用いた際のピーク性能は単精度 254.0TFLOPS (理論ピーク性能の 74.5%) に達した.

Journal

Details

  • CRID
    1571698602848121856
  • NII Article ID
    110009453367
  • NII Book ID
    AN10463942
  • Text Lang
    ja
  • Data Source
    • CiNii Articles

Report a problem

Back to top