予備ノードを利用した故障後の実行継続手法の検討と評価 An Evaluation of Fault Mitigation Method Using Spare Nodes

この論文にアクセスする

この論文をさがす

著者

抄録

ハードウェア規模の増大によりシステムの MTBF が短縮されるエクサスケール環境では,耐故障性の確保が重要な課題となっている.耐故障性の実現に向け,アプリケーションと連携した故障対策を行う Fault Resilience が注目され,多くの研究が進められている.我々は Fault Resilience なエクサスケール環境において実現される耐故障機構を用いて,どのように実行を継続することが効果的であるか,アプリケーションの実行継続手法についての研究を進めている.本論文では,故障後も効率的な実行継続を実現する手法を確立するために,実行継続手法の評価と検討を行う.そして予備ノードを利用した手法について,3 種類の予備ノード利用方式を提案しその性能差を検討するとともに,実アプリケーションへの適用に向けた議論を進める.In the upcoming Exa-scale era, faults could happen more frequently than ever, and thus, fault tolerance (FT) is getting more important. Although many FT mechanisms to survive failures has been proposed so far, there is no discussion how a job should survive from failures. In this paper, we explore and discuss three fault mitigation methods how to survive from a failure using spare nodes without loosing execution efficiency. Finally, it is discussed to apply those proposed method to real applications.

In the upcoming Exa-scale era, faults could happen more frequently than ever, and thus, fault tolerance (FT) is getting more important. Although many FT mechanisms to survive failures has been proposed so far, there is no discussion how a job should survive from failures. In this paper, we explore and discuss three fault mitigation methods how to survive from a failure using spare nodes without loosing execution efficiency. Finally, it is discussed to apply those proposed method to real applications.

収録刊行物

  • 研究報告ハイパフォーマンスコンピューティング(HPC)

    研究報告ハイパフォーマンスコンピューティング(HPC) 2014-HPC-147(21), 1-9, 2014-12-02

    一般社団法人情報処理学会

キーワード

各種コード

  • NII論文ID(NAID)
    110009850815
  • NII書誌ID(NCID)
    AN10463942
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • データ提供元
    NII-ELS  IPSJ 
ページトップへ