デバッグ情報とシグナルを用いたメモリエラーの修復

説明

Approximate Computing は新しい省電力化手法であり,定められたハードウェアの処理時間や比率を変更することによって,通常では達成できないレベルでの電力削減が見込める.しかし,副作用としてデータのエラー率が上昇し,アプリケーションの実行に影響を及ぼし実行が中断されることもある.特に,エラーによって浮動小数点が NaN へ変化すると,実行が継続できなくなる要因となる.本研究は,Approximate Computing をメインメモリへ適用した環境を想定し,浮動小数点のデータに致命的なエラーが起きた場合に,実行が継続でき効果的にデータを修復する手法を提案する.NaN による例外をシグナルによって検知し,メモリやレジスタを書き換えて実行を継続させる.書き換える値には,デバッグ情報から得られるデータの型や論理的構造をもとに周辺データを取得して元のデータを推測する.提案システムを実装し,擬似的な Approximate Computing 適用環境の中で,エラーが起きても継続して実行ができることを確認した.またデバッグ情報を基に推測してデータを修復することで,計算結果への誤差を抑えることも確認できた.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ