大規模GPUクラスタにおけるN体計算コードの演算性能とスケーラビリティの評価

この論文をさがす

説明

我々は, CUDA/OpenMP/MPI を用いて実装した N 体計算コードを最適化し,大規模 GPU クラスタ上で性能評価を行った.本実装では,スケーラビリティを向上させるために,ノード間の通信回数を削減し,またノード間・ノード内の通信を計算と同時に行うことによって通信時間を隠蔽した.筑波大学の HA-PACS (Highly Accelerated Parallel Advanced system for Computational Sciences) 上での性能測定の結果,高い演算性能,並列化効率が得られることが確かめられた. GPU 当たりの粒子数が 8192 体未満の場合にはスーパーリニア・スケーリングを示し, 8192 体以上の場合には並列化効率はほぼ 100% となった. NVIDIA Tesla M2090 を 256 枚用いた際のピーク性能は単精度 254.0TFLOPS (理論ピーク性能の 74.5%) に達した.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1571698602848121856
  • NII論文ID
    110009453367
  • NII書誌ID
    AN10463942
  • 本文言語コード
    ja
  • データソース種別
    • CiNii Articles

問題の指摘

ページトップへ