GPU向け耐メモリエラーソフトウエアフレームワーク  [in Japanese] Software Framework for GPU Memory Errors  [in Japanese]

Search this Article

Author(s)

Abstract

我々はコモディティ GPU を対象とした耐 DRAM ソフトエラーを実現するソフトウェアフレームを提案する。同フレームワークは符号化によるビットフリップ等の DRAM ソフトエラーを検知する。エラーが検知された場合、ホスト側に取得済みのチェックポイントから GPU カーネルを再実行することでエラーからの復旧を実現する。同フレームワークを CUDA GPU 上で実装した場合の性能を評価し、エラーチェックによるオーバーヘッドは、行列積のような計算負荷の大きいカーネルでは 10 パーセント以下、3D FFT のようなメモリアクセス負荷の大きいカーネルにおいて 35% 程度で抑えられることを示す。We present a high-performance software framework to enhance commodity off-the-shelf GPUs with DRAM fault tolerance. It combines data coding for detecting bit-flip errors and checkpointing for recovering computations when such errors are detected. We analyze performance of data coding in GPUs and present optimizations geared toward memory-intensive GPU applications. We present performance studies of the prototype implementation of the framework and show that the proposed framework can be realized with very low overheads in compute intensive applications such as matrix multiplication, and as low as 35% in a highly-efficient memory intensive 3-D FFT kernel.

Journal

  • 情報処理学会研究報告. 計算機アーキテクチャ研究会報告

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告 186, H1-H6, 2009-11-30

    情報処理学会

References:  11

Codes

  • NII Article ID (NAID)
    110007997601
  • NII NACSIS-CAT ID (NCID)
    AN10096105
  • Text Lang
    JPN
  • Article Type
    ART
  • ISSN
    09196072
  • NDL Article ID
    024779317
  • NDL Call No.
    YH247-911
  • Data Source
    CJP  NDL  NII-ELS 
Page Top