エクサスケールスパコンに向けた耐故障性の評価-TSUBAME2.0を例にして-

書誌事項

タイトル別名
  • Evaluating Resilience Towards Exascale --- Tsubame2.0 as an Example ---

この論文をさがす

抄録

過去には大規模マルチペタスケールスパコンはクラスタ型では障害の頻出により絶望的で、専用設計でないと実現しないとも言われていた。しかし、今日では TSUBAME2.0 に代表されるクラスタ型のスパコンは 100% 近い負荷でも問題なく実運用に供している。これは従来のサーベイは信頼性の低いクラスタの経験値によるラフな算出で、詳細なフォルトモデルが欠落していたからであり、故障発生率を過大評価していたことと、故障に対する種々の予防および耐故障性の種々のテクニックを考察していなかった事に起因する。TSUBAME3.0 からさらにエクサスケールに向け、我々はその評価を行っており、そこから何故 TSUBAME2.0 は成立するのか、将来エクサに向けてどうか、を論ずる。

収録刊行物

関連プロジェクト

もっと見る

キーワード

詳細情報 詳細情報について

  • CRID
    1570009753014122624
  • NII論文ID
    110009606443
  • NII書誌ID
    AN10463942
  • 本文言語コード
    ja
  • データソース種別
    • CiNii Articles
    • KAKEN

問題の指摘

ページトップへ