高信頼HPCクラスタのためのチェックポインティング高速化の検討 Consideration about Fast Checkpointing Mechanism for High-reliable HPC Cluster System

この論文をさがす

著者

抄録

クラスタシステムは,その高いコストパフォーマンスから近年広く活用されているが,大規模なクラスタシステムでは構成要素となる商用既製品の数が多く,システムの故障率も大きくなる.しかしこれまでは大規模クラスタシステムの信頼性についてはさほど考慮されていなかった.長時間に及ぶ大規模科学技術計算においてクラスタシステムを活用するためには,システムソフトウェアによりシステムの信頼性を向上することが必要不可欠となっている.そこで本稿では高信頼HPCクラスタシステムに適したチェックポインティング機構として階層化チェックポインティングを提案し,初期的な実験を行ったので報告する.SCoreクラスタシステムはチェックポインティング機能を備える公開された高性能並列プログラミング環境であり,今回の実験はSCoreクラスタのチェックポインティング機構を改良することにより行った.

Cluster systems are getting widely used because of good performance / cost ratio. However, little attention has been paid for their reliability so far. As the number of commodity components in a cluster system gets increased, it is indispensable to support reliability by system software. We propose a hierarchical checkpointing in this paper. We explain its mechanism and show preliminary experimantal results. In the experiment, the proposed mechanism is prototyped by modifying SCore cluster system, which is a parallel programming environment with checkpoint mechanism and is open to public.

収録刊行物

  • 電子情報通信学会技術研究報告. DC, ディペンダブルコンピューティング

    電子情報通信学会技術研究報告. DC, ディペンダブルコンピューティング 103(250), 7-12, 2003-07-30

    一般社団法人電子情報通信学会

参考文献:  9件中 1-9件 を表示

各種コード

  • NII論文ID(NAID)
    110003173602
  • NII書誌ID(NCID)
    AA11645397
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    09135685
  • NDL 記事登録ID
    6706062
  • NDL 雑誌分類
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL 請求記号
    Z16-940
  • データ提供元
    CJP書誌  NDL  NII-ELS 
ページトップへ