性能モデルに基づくCPU及びGPUを併用する効率的なFFTライブラリ

書誌事項

タイトル別名
  • セイノウ モデル ニ モトズク CPU オヨビ GPU オ ヘイヨウ スル コウリツテキ ナ FFT ライブラリ
  • An Efficient, Model-based CPU-GPU Heterogeneous FFT Library

この論文をさがす

抄録

General-purpose GPU(GPGPU)をHPCの分野で利用する手法が,その非常に高いピーク性能のために注目されている.しかし,ホストとの転送I/O帯域幅やメモリサイズの制限等のため,実効性能は大幅に低下する傾向にある.一方で,CPUのマルチコア化も近年急速に進みつつあるため,GPUとCPU上のアプリケーションの実効性能の乖離は小さい場合が多く,両者を併用することにより性能の改善が期待される.このとき,効率的な実行のためにはヘテロなプロセッサへのタスクの分割率を適切に決める必要がある.しかし,最適な分割率は問題サイズ等に依存して変化するために,自明な問題ではない.我々は2D-FFTを対象問題として取り上げ,CPUとGPUを併用するライブラリを実装する.そして最適な分割率を得るために2D-FFTのアルゴリズムを詳細に考慮した性能モデルを構築する.モデルのパラメータは小規模な予備実行により決定され,それをもとに任意の問題サイズと分割率に対して並列実行時間を予測することができる.実験の結果,性能モデルは予備実行の16倍のサイズの問題について,実行時間を15%以内の誤差で予測した.予測から得られた最適分割率は5%の誤差に抑えられ,この誤差に起因する性能低下は1%以内であった.また,最適分割率における並列実行により,CPU 1コアやGPU単体の場合と比較して1.19から1.55倍の性能向上が得られた.

General Purpose computing on Graphics Processing Units (GPGPU) is becoming popular in HPC because of it's high peak performance. However, in spite of the potential performance improvements, it might not necessarily perform better than the current high-performance CPUs, especially with recent trends for increases in their number of cores on a single die. This is because the GPU performance can be severely limited by such restrictions as memory size and I/O bandwidth. For this reason, we can expect that performance is improved by using CPU and GPU simultaneously. In heterogeneous environments, we need to find optimal load distribution ratio. We implement a 2D-FFT library that uses heterogeneous CPU-GPU computing resources. To find optimal load distribution ratios, we construct a performance model that predicts execution time of 2D-FFT that captures the respective contributions of CPU vs. GPU. The model parameters are determined by pre-stage performance profiling; based on this, we predict the overall execution time of 2D-FFT for arbitrary problem sizes and load distributions. Preliminary evaluation shows that the performance model can predict the execution time of problem sizes that are 16 times as large as the profile runs with less than 15% error, and that the predicted optimal load distribution ratios have less than 5% error; performance overhead caused by this error is less than 1%. We show that the resulting performance improvement by such heterogeneous parallelization can be 1.19 to 1.55 times compared to using only a CPU core or a GPU.

収録刊行物

被引用文献 (1)*注記

もっと見る

関連プロジェクト

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ