GPU向けソフトウェアECCの性能評価  [in Japanese] Performance Evaluation of Software-Based ECC for GPUs  [in Japanese]

Search this Article

Author(s)

Abstract

高い浮動小数点演算性能により、GPUをHPC用途に用いるGPGPUが注目されている。しかし、GPUは本来グラフィックス用途に開発されてきたものであり、HPC用途としては耐故障性に不十分な点が存在する。その一つとして、メモリ誤りの検出、訂正が挙げられる。現状のGPUにはECCを備えたものなく、一般的なHPC計算ノードと比較して信頼性に劣る。我々は、GPUの信頼性向上のために、ソフトウェアによってメモリ誤りの検出、訂正を行う手法を提案している。本手法では、GPGPUアプリケーション中にECCを計算、検査するコードを追加することで、グラフィックスメモリ中のビットフリップなどの誤りを検出、訂正する。提案手法をNvidiaによるC言語拡張CUDA向けにライブラリとして実装し、FFT、行列積、N体問題アプリケーションに適用した。両アプリケーションを用いて、ECC計算による性能オーバーヘッドを調査したところ、FFT、行列積で最大300%程度,N体問題で15%程度のオーバーヘッドになることを確認し、N体問題のようにメモリアクセス頻度に対して計算量の多いアプリケーションでは比較的小さなオーバーヘッドで実現可能であることを確認した。

General-Purpose Processing on GPUs (GPGPUs) has rapidly been recoginized as a promissing HPC technology because of GPUs' much higher peak floating-point processing power. However, GPUs have originally been developed for graphics applications, such as 3D games, where reliability is not considered as an important issue as in HPC communities. One notable example is the lack of ECC in graphics memory systems. To improve the reliability of GPUs for HPC applications, we propose a software-based technique to generate and check ECC for graphics memory. Our library-based approache allows for CUDA-based GPGPU applications to be easily extended with ECC-based error checking with little manual intervention. To evaluate the applicability of our approach, we extended two CUDA applications with our ECC libarary: 3-D FFT, matrix multiplication, and an N-body problem. Our performance studies showed that while FFT and matrix multiplication can take up to 300% overhead, the N-body application only incurrs 15% of overhead. These results suggest that software-based ECC would be a promissing approach for computation-intensive applications such as N-body problems.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes HPC2009-HPC-119, 25-30, 2009

    Information Processing Society of Japan (IPSJ)

Cited by:  2

  • Software Framework for GPU Memory Errors  [in Japanese]

    MARUYAMA NAOYA , NUKADA AKIRA , MATSUOKA SATOSHI

    情報処理学会研究報告. [ハイパフォーマンスコンピューティング] 123, H1-H6, 2009-11-30

    References (11)

  • Software Framework for GPU Memory Errors  [in Japanese]

    MARUYAMA NAOYA , NUKADA AKIRA , MATSUOKA SATOSHI

    情報処理学会研究報告. 計算機アーキテクチャ研究会報告 186, H1-H6, 2009-11-30

    References (11)

Codes

  • NII Article ID (NAID)
    110007133813
  • NII NACSIS-CAT ID (NCID)
    AN10463942
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • Data Source
    CJPref  NII-ELS 
Page Top