代替ノード利用手法による耐故障性実現に向けた通信性能の評価と検討

この論文にアクセスする

この論文をさがす

著者

    • 堀敦史
    • 理化学研究所計算科学研究機構 RIKEN AICS
    • 石川裕
    • 東京大学|理化学研究所計算科学研究機構 The University of Tokyo | RIKEN AICS

抄録

莫大なハードウェアにより構成されるエクサスケール環境では,システム全体の MTBF が短縮されるため,その実現には耐故障性の確保が不可欠である.現在主流である故障対策手法は,システムレベルでのチェックポイント・リスタートである.しかし,システムの大規模化に伴う保存データサイズの増大により,故障対策の時間がアプリケーションの実行時間を圧迫してしまい,エクサスケール環境での適用は現実的ではない.そこで,故障対策をシステムに一任せずアプリケーションと連携し,ユーザレベルでの故障対策を行う Fault Resilience が提案されている.我々はエクサスケールでの Fault Resilience 環境において,ユーザレベルでの故障対策をどのような手法で実装し,故障後の実行を継続させるべきかについて検討を進めている.現在はステンシル計算アプリケーションを対象とし,代替ノード利用手法を用いた故障からの復帰手法の評価を進めている.代替ノード利用手法では,故障したノードの代わりに予め確保していた予備ノードを用いることで実行を継続する.代替ノードを用いた場合,故障前とは異なるノード間での通信が発生することになり,通信の衝突が発生し通信性能が低下する可能性がある.本論文では,ステンシル計算アプリケーションに代替ノード利用手法を実装し,その通信性能の評価を行う.通信性能の低下の要因は,複数通信が同一通信経路を共有するために発生する通信衝突であると考え,その関係性について明らかにする.さらに,通信経路を制御することで衝突を回避し,通信性能の低下を回避する手法を提案し,その有効性を示す.

収録刊行物

  • 研究報告ハイパフォーマンスコンピューティング(HPC)

    研究報告ハイパフォーマンスコンピューティング(HPC) 2014-HPC-145(6), 1-8, 2014-07-21

    一般社団法人情報処理学会

キーワード

各種コード

  • NII論文ID(NAID)
    110009808101
  • NII書誌ID(NCID)
    AN10463942
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • データ提供元
    NII-ELS  IPSJ 
ページトップへ