エクサスケールでの耐故障性実現に向けた代替ノード配置による通信性能の評価

この論文にアクセスする

この論文をさがす

著者

    • 堀敦史
    • 理化学研究所計算科学研究機構 RIKEN AICS
    • 石川裕
    • 東京大学|理化学研究所計算科学研究機構 The University of Tokyo | RIKEN AICS

抄録

ハードウェア規模の増加するエクサスケール環境においては MTBF の短縮が懸念されており,耐故障性の確保が重要な課題となっている.しかし,現在故障対策の主流となっているシステムレベルでのチェックポイント・リスタート手法は,大規模化に伴うチェックポインティング時のスナップショットサイズの増大により,チェックポインティングに要する時間が増大することが予想される.更に,MTBF の短縮に対応するために,チェックポイント・リスタートの頻度を増やす必要がある.その結果,故障対策の時間が実行時間の多くを占め,アプリケーションの実行が進まない状態が発生してしまう.この問題を解決するために,アプリケーションと連携し,ユーザレベルでの故障対策を行う Fault Resilience が提案された.我々はエクサスケールでの Fault Resilience 環境の実現に向け,ユーザレベルでの故障対策をどのように実装し,故障後の実行を継続させるべきかについて検討を進めている.本論文では,2 次元ステンシル計算を対象とし,ユーザレベルでの故障対策手法として代替ノード利用手法を提案する.代替ノード利用手法では,利用する代替ノードの配置により通信性能が変化するため,その性能について評価を行った.

収録刊行物

  • 研究報告ハイパフォーマンスコンピューティング(HPC)

    研究報告ハイパフォーマンスコンピューティング(HPC) 2014-HPC-144(16), 1-6, 2014-05-19

    一般社団法人情報処理学会

キーワード

各種コード

  • NII論文ID(NAID)
    110009776019
  • NII書誌ID(NCID)
    AN10463942
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • データ提供元
    NII-ELS  IPSJ 
ページトップへ