エクサスケールスパコンに向けた耐故障性の評価-TSUBAME2.0を例にして-
書誌事項
- タイトル別名
-
- Evaluating Resilience Towards Exascale --- Tsubame2.0 as an Example ---
この論文をさがす
抄録
過去には大規模マルチペタスケールスパコンはクラスタ型では障害の頻出により絶望的で、専用設計でないと実現しないとも言われていた。しかし、今日では TSUBAME2.0 に代表されるクラスタ型のスパコンは 100% 近い負荷でも問題なく実運用に供している。これは従来のサーベイは信頼性の低いクラスタの経験値によるラフな算出で、詳細なフォルトモデルが欠落していたからであり、故障発生率を過大評価していたことと、故障に対する種々の予防および耐故障性の種々のテクニックを考察していなかった事に起因する。TSUBAME3.0 からさらにエクサスケールに向け、我々はその評価を行っており、そこから何故 TSUBAME2.0 は成立するのか、将来エクサに向けてどうか、を論ずる。
収録刊行物
-
- 情報処理学会研究報告. [ハイパフォーマンスコンピューティング]
-
情報処理学会研究報告. [ハイパフォーマンスコンピューティング] 2013 (22), 1-8, 2013-09-23
一般社団法人情報処理学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1570009753014122624
-
- NII論文ID
- 110009606443
-
- NII書誌ID
- AN10463942
-
- 本文言語コード
- ja
-
- データソース種別
-
- CiNii Articles
- KAKEN