GPUにおける3倍・4倍精度浮動小数点演算の実現と性能評価

Bibliographic Information

Other Title
  • GPU ニ オケル 3バイ ・ 4バイ セイド フドウ ショウスウテン エンザン ノ ジツゲン ト セイノウ ヒョウカ
  • Implementation and Evaluation of Triple and Quadruple Precision Floating-point Operations on GPUs

Search this article

Abstract

本論文では GPU において 3 倍・ 4 倍精度浮動小数点演算を実現し,線形計算への適用例として Level 1-3 の代表的な BLAS (Basic Linear Algebra Subprograms) ルーチンである AXPY, GEMV, GEMM を実装して性能評価を行った結果を示す. 4 倍精度演算には Double-Double 型 (DD型) の 4 倍精度演算 (DD演算) を用いた.一方で 3 倍精度演算として新たに, Double+Single 型 (D+S型) ・Double+Int 型 (D+I型) の 3 倍精度フォーマットを提案し,内部の計算に DD 演算を用いることで 3 倍精度演算を行う手法を実装した. NVIDIA Tesla M2090 における性能評価では, 3 倍・ 4 倍精度の AXPY・GEMV がメモリ律速となり,その実行時間はデータサイズに比例して,単精度ルーチンに対しておよそ 3 倍, 4 倍となることを示した.我々が提案した 3 倍精度演算は, 3 倍精度データに対する DD 演算がメモリ律速となるケースにおいて, 4 倍精度演算に対する速度面での利点が主張できる. 4 倍精度は必要ないが倍精度では精度が不足する場合では,特に PCI Express やネットワークの帯域が性能のボトルネックとなりやすい GPU クラスタ環境などで, 4 倍精度に対する 3 倍精度の有効性が期待できる.

We have implemented triple and quadruple precision floating-point operations on GPUs. As an example of the application of linear algebra operations, we have implemented triple and quadruple precision subroutines of the Basic Linear Algebra Subprograms (BLAS), AXPY, GEMV and GEMM, and evaluated their performance. For quadruple precision, we used Double-Double (DD) type quadruple precision operations (DD-operations). On the other hand, in our research we are proposing Double+Single (D+S) and Double+Int (D+I) type triple precision floating-point formats and triple precision operations that use DD-operations internally. On an NVIDIA Tesla M2090, the triple and quadruple precision AXPY and GEMV are memory-bound. Therefore, the execution time of the triple and quadruple precision operations is approximately 3x and 4x that of the single precision, respectively. Our triple precision operations have the advantage of speed compared to quadruple precision, in cases where the triple precision operations are memory-bound. In cases where quadruple precision is not required, but double precision is insufficient, we predict that our triple precision operations will perform well, especially in environments such as GPU clusters where the bandwidth of the PCI Express and the network may become bottlenecks.

Journal

Details

Report a problem

Back to top