GPUDirect RDMAを用いた高信頼な障害検知機構

説明

従来,様々な障害検知手法が提案されてきたが,高信頼・高性能・汎用性の 3 つを満たすのは難しかった.そこで,信頼性の高いホワイトボックス監視として,監視対象ホストに搭載された GPU を用いて障害検知を行う GPUSentinel が提案されている.GPUSentinel では,GPU 上で動作する監視システムがメインメモリ上の OS データを解析し,VRAM にグラフィックデータを直接書き込むことで障害情報を通知する.しかし,画面に出力できる情報量には限界があるため,詳細な障害情報を通知するには OS の通信機能を利用する必要がある.そのため,OS に障害が発生すると障害情報を通知することができなくなる可能性がある.本稿では,OS を介さずに GPU と直接ネットワーク通信を行い,詳細な障害情報をリモートホストに通知することができるシステム GRASS を提案する.GRASS では,リモートホストが GPUDirect RDMA を用いて GPU メモリに直接アクセスすることにより,監視対象ホストの CPU を用いずに通信を行う.リモートホスト上のリモート監視システムと GPU 上の OS 監視システムは GPU メモリに対してポーリングを行うことで同期をとる.我々は CUDA や Verbs API を用いて GRASS を実装し,様々な障害を検知できる OS 監視システムを開発した.実験により,障害発生時にリモートホストにおいて監視対象ホストの障害情報を取得できることを確認した.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ