耐故障性を重視したRPCシステムNinf - C の設計と実装

Bibliographic Information

Other Title
  • タイコショウセイ オ ジュウシ シタ RPC システム Ninf C ノ セッケイ ト ジッソウ
  • Design and Implementation of a Fault -Tolerant RPC System : Ninf- C

Search this article

Abstract

耐故障性を重視したRPCシステムNinf-Cの設計と実装に関して述べる.Ninf-Cは,全体として数日から数カ月を要する大規模なマスタワーカ型計算を安定して実行することを目的としたシステムで,ウィスコンシン大学で開発されたスケジューリングシステムCondorの提供する機能を利用することで,マスタを含むシステム全体に耐故障性を持たせている.Ninf-CのRPCは,Condorのファイルステージ機能を用いて実現される.直接ソケット通信を使用せずにファイル経由で通信を行うことで,マスタとワーカのチェックポイントをとることを可能とした.また,ファイルに残った通信記録を用いてマスタの状態を復元する.さらに,Condor-Gを利用することで,Globusによって構築されたグリッド環境下での運用も可能である.Ninf-Cの有効性を確認するため,クラスタ環境で簡単なマスタワーカ型プログラムを長時間実行した.この際,マスタおよびワーカを実行しているマシンをシャットダウンするといった人為的な外乱をあたえたが,プログラムは19時間かけて問題なく実行を終了し,Ninf-Cの耐故障性が実証された.

In this paper, we describe design and implementation of a fault tolerant RPC system, Ninf-C. Ninf-C is designed for large-scale master-worker programs, that take from a few days to a few months for its execution. Ninf-C takes Condor, developed by University Wisconsin, as the base structure of the system. It uses file transmission and checkpointing mechanisms and provides system-wide robustness for programmers. In Ninf-C, master and workers communicate each other using file, not the socket, making crash-recovery easy. To prove robustness of the system, we performed an experiment on a heterogeneous cluster consisted of x86 and SPARC. We ran a simple but long-running master-worker program on the cluster and rebooted several machines of the cluster to disturb the program execution. As a result, the program execution finished normally, showing the robustness of Ninf-C.

Journal

Citations (3)*help

See more

References(10)*help

See more

Related Projects

See more

Keywords

Details 詳細情報について

Report a problem

Back to top