非連携チェックポインティングにおいて同時多重メディア障害を考慮したチェックポイント・ミラーリング手法

書誌事項

タイトル別名
  • ヒレンケイ チェックポインティング ニ オイテ ドウジ タジュウ メディア ショウガイ オ コウリョ シタ チェックポイント ・ ミラーリング シュホウ
  • Checkpoint-mirroring Techniques for Uncoordinated Checkpointing toward Tolerating Concurrent Multiple Media Failures
  • フォールトトレランス

この論文をさがす

抄録

従来のチェックポインティング技術の多くは,ストレージメディアでの障害(メディア障害)の発生を想定していないため,チェックポイントデータを保存するストレージにメディア障害が発生した場合,システムは障害回復を行えない.本論文では,非連携チェックポインティングにおけるチェックポイント・ミラーリング手法を提案する.各プロセスはチェックポイントデータを自ノードに加えて他ノードにも保存する.メディア障害が発生した際は,他ノードからこれらのデータを取得することで障害回復を行う.非連携チェックポインティングでは,各プロセスが複数世代のチェックポイントデータを保持し,本質的に冗長性を備えているといえる.本研究は,この冗長性を利用して,比較的低いストレージオーバヘッドで高い耐メディア障害性を得ることを目的とする.本論文では,複製を配置するノードの選択方法によって,冗長度を増すことなく耐メディア障害性を向上させることができることを示す.プロセスごとに複製を配置するノードを固定する固定ミラーリング手法(FM)と,チェックポインティングのたびにこれを変更するローテーショナル・ミラーリング(RM)手法について,シミュレーションによって同時多重メディア障害発生時における回復能力の評価を行った.数値例から,ドミノ効果の発生頻度が比較的低い場合に,RM 手法はより高い冗長度のFM 法と同等の回復能力を有し,耐メディア障害性を向上させることができることが示される.

Most conventional distributded checkpointing techniques assume the storage media to be stable. A system cannot recover from failures when some failures occur in the storage media because the checkpoint data are lost. In this paper, we propose checkpoint-mirroring techniques for uncoordinated checkpointing, in which each process saves its checkpoint data in its own node as well as in some of the other nodes. When a media failure occurs, the failure will be recoverable by loading these copies of checkpoint data. In uncoordinated checkpointing, processes usually hold a number of their checkpoints, that means, uncoordinated checkpointing techniques naturally have some redundant checkpoints. We aim to improve the media-failure-tolerance of uncoordinated checkpointing by utilizing the redundancy with adding a little extra storage overheads. In this paper, we show that we can improve the media-failure-tolerance by properly selecting nodes holding the copies of checkpoint data. We performed simulations to evaluate the recoverability of fixed mirroring (FM) technique and rotational mirroring (RM) technique which changes the mirror nodes at every checkpointing. The simulation results show the RM technique can effectively reduce mean rollback distances on concurrent multiple media failures.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ