計算グリッド向けフォールトトレラントシステムEagleの提案と初期評価

Bibliographic Information

Other Title
  • ケイサン グリッド ムケ フォールトトレラント システム Eagle ノ テイアン ト ショキ ヒョウカ
  • A Proposal and Preliminary Evaluation of a Novel Fault - tolerant System Named Eagle for Computational Grids

Search this article

Abstract

近年,ネットワークで結ばれた異なるドメインに属する計算資源を結合し,仮想的な並列計算機を動的に構築するためのインフラストラクチャである計算グリッドが高い関心を集めている.一般に,大規模な計算資源を利用し長時間にわたって計算を行う場合,システム内に障害が発生し,計算を正常に完了できなくなる可能性が高くなる.このため,計算グリッドを用いて構築されるシステムの実用化のためには,構築されるシステムを高信頼化する技術が必要である.本稿では,ドメイン単位のプロセス譲渡機能を備えた計算グリッド向けフォールトトレラントシステムEagleを提案する.Eagleでは,複数プロセスの同時障害からのリカバリに加えて,ドメイン単位のプロセスの譲渡が可能である.我々は,MPIアプリケーション向けのEagleの実装であるMPICH-EGを開発している.グリッド環境との親和性を高めるため,MPICH-EGは主要なグリッドミドルウェアであるGlobus上で実装を進めている.本稿では,マイクロベンチマークを用いてMPICH-EG の基本通信性能を評価し,NAS Parallel Benchmarks(NPB)の実行オーバヘッドを評価する.また,いくつかのチェックポインティング手法をチェックポインタckptをベースとして実装し,NPB の実行オーバヘッドを評価する.これらの評価結果より,MPICH-EGの基本特性を明らかにするとともに,MPICH-EGに有効なチェックポインティング手法を検討する.

Computational grid technologies are greatly expected as an infrastructure to dynamically build virtual parallel computers by collecting computational resources across multiple domains. Generally, a long-running application on a huge parallel computer has a certain risk due to the increase of failure rate of the system. Therefore, fault-tolerant technologies are required to build a reliable computational grid system in practice. In this paper, we propose a novel fault-tolerant system Eagle for computational grids. It enables all processes in a domain to migrate to another domain. Furthermore, Eagle can tolerate simultaneous process failures. We are developing a fault-tolerant MPI named MPICH-EG as an implementation of Eagle. Implementation of MPICH-EG is in progress on Globus, a major grid middleware, to increase affinity with grid environment. We evaluate both a basic communication performance and practical overheads by using microbenchmarks and NAS Parallel Benchmarks (NPB). We also discuss checkpointing methods and evaluate their overheads by using a checkpointer called ckpt.

Journal

Citations (2)*help

See more

References(14)*help

See more

Related Projects

See more

Keywords

Details 詳細情報について

Report a problem

Back to top