SCoreクラスタシステムにおけるチェックポインティング機構の性能評価 Performance Evaluation of Checkpointing Mechanism on SCore Cluster System

この論文にアクセスする

この論文をさがす

著者

    • 鈴木 優介 SUZUKI YUSUKE
    • 東京大学 先端科学技術研究センター Research Center for Advanced Science and Technology, The University of Tokyo
    • 今井 雅 IMAI MASASHI
    • 東京大学 先端科学技術研究センター Research Center for Advanced Science and Technology, The University of Tokyo
    • 中村 宏 NAKAMURA HIROSHI
    • 東京大学 先端科学技術研究センター Research Center for Advanced Science and Technology, The University of Tokyo
    • 南谷 崇 NANYA TAKASHI
    • 東京大学 先端科学技術研究センター Research Center for Advanced Science and Technology, The University of Tokyo

抄録

クラスタシステムは,その高いコストパフォーマンスから近年広く活用されている.大規模なクラスタシステムでは構成要素となる商用既製品の数が多く,システムの故障率も大きくなる.しかしこれまでは大規模クラスタシステムの信頼性についてはさほど考慮されていなかった.長時間に及ぶ大規模科学技術計算においてクラスタシステムを活用するためには,システムソフトウェアによりシステムの信頼性を向上することが必要不可欠となっている.SCoreクラスタシステムはチェックポインティング機能を備える公開された高性能並列プログラミング環境である.そこで我々はクラスタシステムの高信頼化における問題点を整理するために,SCoreのチェックポインティング機構を定量的に評価した.その結果,チェックポインティングに要する時間はノードの総数に依らずほぼ一定であること,しかし現在の実装では低いネットワーク転送の実効性能がチェックポインティングのボトルネックになっていることが明らかとなった.Cluster systems are getting widely used because of good performance / cost ratio. However, little attention has been paid for their reliability so far. As the number of commodity components in a cluster system gets increased, it is indispensable to support reliability by system software. SCore cluster system software is a parallel programming environment which is open to public and provides checkpointing mechanism. Towards highly reliable cluster systems, we evaluate and analyze the checkpointing mechanisms of SCore quantitively. The experimental results reveal that the required time for checkpointing scales very well in respect to the number of computing nodes. However, the required time is quite long the current implementation cannot utilize potential ability of networks.

Cluster systems are getting widely used because of good performance / cost ratio. However, little attention has been paid for their reliability so far. As the number of commodity components in a cluster system gets increased, it is indispensable to support reliability by system software. SCore cluster system software is a parallel programming environment which is open to public and provides checkpointing mechanism. Towards highly reliable cluster systems, we evaluate and analyze the checkpointing mechanisms of SCore quantitively. The experimental results reveal that the required time for checkpointing scales very well in respect to the number of computing nodes. However, the required time is quite long the current implementation cannot utilize potential abdity of networks.

収録刊行物

  • 情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)

    情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) 2003(29(2002-HPC-093)), 25-30, 2003-03-11

    一般社団法人情報処理学会

参考文献:  6件中 1-6件 を表示

被引用文献:  3件中 1-3件 を表示

各種コード

  • NII論文ID(NAID)
    110002914028
  • NII書誌ID(NCID)
    AN10463942
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • NDL 記事登録ID
    6547841
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-1121
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ