MPI_Allreduceの「京」上での実装と評価

書誌事項

タイトル別名
  • MPI_Allreduce ノ 「 キョウ 」 ウエ デ ノ ジッソウ ト ヒョウカ
  • Implementation and Evaluation of MPI_Allreduce on the K Computer

この論文をさがす

抄録

本論文では, 82,944 台の計算ノードを Tofu インターコネクトと呼ばれる 6 次元の直接網で結合した 「京」 における MPI 集団通信の高速化について述べる.従来の MPI ライブラリには,トポロジを考慮したアルゴリズムが存在しないため, 「京」 のような直接網において性能を出すことができない.そのため, Trinaryx3 と呼ばれる Allreduce を設計し, 「京」 向けの MPI ライブラリに実装した. Trinaryx3 アルゴリズムは,トーラス向けに最適化されており, 「京」 の特長の 1 つである複数 RDMA エンジンを活用することができる.実装を評価した結果,既存のトポロジを考慮していないアルゴリズムと比較して, 5 倍のバンド幅の向上を確認した.

This paper reports a method of speeding up MPI collective communication on the K computer, which consists of 82,944 computing nodes connected by a 6D direct network, named Tofu interconnect. Existing MPI libraries, however, do not have topology-aware algorithms which perform well on such a direct network. Thus, an Allreduce collective algorithm, named Trinaryx3, is designed and implemented in the MPI library for the K computer. The algorithm is optimized for a torus network and enables utilizing multiple RDMA engines, one of the strengths of the K computer. The evaluation results show the new implementation achieves five times higher bandwidth than existing one.

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ