- 【Updated on May 12, 2025】 Integration of CiNii Dissertations and CiNii Books into CiNii Research
- Trial version of CiNii Research Knowledge Graph Search feature is available on CiNii Labs
- 【Updated on June 30, 2025】Suspension and deletion of data provided by Nikkei BP
- Regarding the recording of “Research Data” and “Evidence Data”
Reducing Power and Area of Dynamically Reconfigurable Processors by removing the context memory
Bibliographic Information
- Other Title
-
- コンテキストメモリの排除による動的リコンフィギャラブルプロセッサの低電力、省面積化
Description
コンテキストメモリは, マルチコンテキスト型CGDRP(Coarse-Grained Dynamically Reconfigurable Processor)の特徴的な構成要素であり, プロセッサおよびスイッチングエレメントに分散配置され, 複数のハードウェアコンテキストに対応する構成情報を保持する. コントローラからのポインタにより, コンテキストメモリから構成情報を読み出すことで, ハードウェアコンテキストスイッチを1クロックで行うことが可能である. しかし, 一方で, 面積と電力に占める割合いが大きく, 格納できるコンテキスト数の制限によりアプリケーションが制限される問題もある. そこで, 本論文では, マルチコンテキスト型CGDRPからコンテキストメモリを排除する手法について検討した. コンテキストメモリの代りにダブルバッファを持たせ, 片方の構成情報で実行中に, 次の構成情報をバックグランドで転送する. 構成情報の転送にはマルチキャスト手法を用いて転送時間を短縮する. しかし, このような従来手法の組み合わせでは, 構成情報の転送が間に合わないため, 大きなストール時間が発生してしまう. そこで, まず, スケジュール手法であるLoop Separationを用いて, ループの実行時, 一つのコンテキストを, 一定以上のクロック数連続して実行するように変換する. さらに, 構成情報のマルチキャスト機構に差分再構成法,Spare registerを組みあわることでバックグランド転送のクロック数を削減した. 評価の結果, ループ依存性がないプログラムでは, 最大12-13%の性能低下で面積を63%に, 消費電力を40%にすることに成功した. ループ間の依存性があるプログラムでは差分構成法が有効であり, 今回評価したSQSUMでは18%程度まで性能低下を抑えることができた.
Although context memory or configuration cache is a key mechanism for quick dynamic reconfiguration of multi-context Coarse-Grained Dynamically Reconfigurable Processors (CG-DRP), it requires a large amount of area and energy. In order to save them, methods to remove the context memory from multi-context DRPA are proposed. In order to keep a context without switching, a scheduling method; Loop Separation is introduced. By separating loops by the compiler the same context can be used without switching in a certain clock cycles with small additional hardware. The back-ground configuration data loading time can be reduced by multicasting configuration data with two dimensional bit-map. For further reduction, the differential loading and spare register are proposed. With combination of them, the increasing execution time is only up to 12-13% if the target application does not have loop-carried dependency. With the above overhead on the performance, the semiconductor area becomes 63%, and the energy consumption is reduced to 40%, thus, the performance per cost or energy is much improved.
Journal
-
- 先進的計算基盤システムシンポジウム論文集
-
先進的計算基盤システムシンポジウム論文集 2012 134-141, 2012-05-09
情報処理学会
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1050574047079553024
-
- NII Article ID
- 170000070787
-
- Text Lang
- ja
-
- Article Type
- conference paper
-
- Data Source
-
- IRDB
- CiNii Articles