代替ノード利用手法による耐故障性実現に向けた通信性能の評価と検討

Search this article

Abstract

莫大なハードウェアにより構成されるエクサスケール環境では,システム全体の MTBF が短縮されるため,その実現には耐故障性の確保が不可欠である.現在主流である故障対策手法は,システムレベルでのチェックポイント・リスタートである.しかし,システムの大規模化に伴う保存データサイズの増大により,故障対策の時間がアプリケーションの実行時間を圧迫してしまい,エクサスケール環境での適用は現実的ではない.そこで,故障対策をシステムに一任せずアプリケーションと連携し,ユーザレベルでの故障対策を行う Fault Resilience が提案されている.我々はエクサスケールでの Fault Resilience 環境において,ユーザレベルでの故障対策をどのような手法で実装し,故障後の実行を継続させるべきかについて検討を進めている.現在はステンシル計算アプリケーションを対象とし,代替ノード利用手法を用いた故障からの復帰手法の評価を進めている.代替ノード利用手法では,故障したノードの代わりに予め確保していた予備ノードを用いることで実行を継続する.代替ノードを用いた場合,故障前とは異なるノード間での通信が発生することになり,通信の衝突が発生し通信性能が低下する可能性がある.本論文では,ステンシル計算アプリケーションに代替ノード利用手法を実装し,その通信性能の評価を行う.通信性能の低下の要因は,複数通信が同一通信経路を共有するために発生する通信衝突であると考え,その関係性について明らかにする.さらに,通信経路を制御することで衝突を回避し,通信性能の低下を回避する手法を提案し,その有効性を示す.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes 2014 (6), 1-8, 2014-07-21

    Information Processing Society of Japan (IPSJ)

Keywords

Details 詳細情報について

  • CRID
    1573387452664638848
  • NII Article ID
    110009808101
  • NII Book ID
    AN10463942
  • Text Lang
    ja
  • Data Source
    • CiNii Articles

Report a problem

Back to top