配列間パディングを用いた粗粒度タスク並列処理のためのキャッシュ最適化

書誌事項

タイトル別名
  • ハイレツ カン パディング オ モチイタ ソリュウド タスク ヘイレツ ショリ ノ タメ ノ キャッシュ サイテキカ
  • Cache Optimization for Coarse Grain Task Parallel Processing Using Inter-array Padding
  • 並列・分散処理技術

この論文をさがす

抄録

マルチプロセッサシステムの普及にともない自動並列化コンパイラの重要性が高まっている.従来自動並列化コンパイラの研究では,ループ並列処理を中心とした研究が行われてきたが,システムの実効性能を向上させるためには,ループ並列処理に加えループやサブルーチン間の並列性を利用する粗粒度タスク並列処理,ステートメント間の並列性を利用する近細粒度並列処理を階層的に利用するマルチグレイン並列処理が注目されている.また,プロセッサとメモリの速度差の増大によりメモリアクセスレイテンシが性能向上のボトルネックになっている.したがって,データローカリティ最適化によるキャッシュメモリの有効利用も性能向上の重要なファクタとなる.本論文では粗粒度タスク並列処理の性能の向上を目指した粗粒度タスク間キャッシュ最適化手法について述べる.本手法では,データローカライゼーション手法を用い,データおよびタスクをキャッシュサイズにフィットするように分割し,同一データにアクセスするタスクを連続的に実行できるようにプログラムの実行順序を変えたうえで,配列間パディングを用いデータレイアウトを変えることによって,連続実行される粗粒度タスク間でのコンフリクトミスを削減する.本手法の性能をキャッシュ構成の異なる2 台の4 プロセッサマルチプロセッサワークステーションSun Ultra 80 (ダイレクトマップ)とIBM RS/600044p-270 (セットアソシアティブ)上で性能評価を行った.Ultra 80 ではネイティブコンパイラSunForte 6 update 2 の自動並列化の最高性能に対してSPEC CFP95 のtomcatv で5.1 倍,swim で3.3 倍,hydro2d で2.1 倍,turb3d で1.1 倍の性能向上が得られた.またRS/6000 ではIBM XLFortran 7.1 コンパイラに対して,tomcatv で1.7 倍,swim で4.2 倍,hydro2d で2.5 倍,turb3dで1.03 倍の性能向上が得られた.

Importance of automatic parallelizing compilers is getting larger with the widespread use of multiprocessor system.To improve the performance of multiprocessor system,currently multigrain parallelization is attracting much attention.In multigrain parallelization,coarse grain task parallelisms among loops and subroutines and near fine grain parallelisms among statements are used in addition to the traditional loop parallelism.The locality optimization to use cache effectively is also important for the performance improvement.This paper proposes inter-array padding for data localization to minimize cache conflict misses over loops. The proposed padding scheme was evaluated on the two commercial 4 processors workstations, namely Sun Ultra 80 and IBM RS/6000 44p-270,which have different cache configuration. Compared with the maximum performance of Sun Forte 6 update 2 compiler automatic loop parallelization on Ultra 80,the proposed padding with data localization gave us 5.1 times speedup for SPEC CFP95 tomcatv,3.3 times for swim,2.1 times for hydro2d,1.1 times for turb3d.On IBM RS/6000 44p-270,it shows 1.7 times speedup for tomcatv,4.2 times for swim,2.5 times for hydro2d,1.03 times for turb3d against automatic parallelization by IBM XL Fortran 7.1 compiler.

収録刊行物

被引用文献 (4)*注記

もっと見る

参考文献 (16)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ