Read/Search this Article
Abstract
大規模な並列処理機構はシステムの障害も多く, その原因である誤りを回復するのにかなりの時間とメモリ空間が費やされ, システム機能の低下にもつながる.本研究の目的は, マルチプロセッサ型計算機における効率的なチェックポイント方式の提案をし, その有効性を評価することである.提案方式は, メッセージの送受信によってチェックポイントの設定を行う通信誘導型の方式である.本方式では, 誤り回復のための情報をメッセージに付加することを必要としない.また, 各プロセスは, 他のプロセスに関係なく独立してチェックポイントの設定や回復を行うことができる.さらに解析の結果, メッセージ送信がブロードキャストの場合に, より有効であること確認した.
Massively parallel machines have many system failures, which requires significant consumption of time and memory space to recover errors that cause the failures, and it leads to system breakdown. In this paper, we propose an effective checkpoint scheme for multiprocessors and evaluate its effect. Our scheme is communication-induced checkpoint one that takes checkpoints by message communication. Each process can take checkpoints and recover independently of other processes without additional information on messages for error recovery. The analysis shows that our scheme is more effective when message sending is performed in broadcast style.
Journal
- Technical report of IEICE. FTS [List of Volumes]
-
Technical report of IEICE. FTS 98(368), 41-48, 1998-10-26 [Table of Contents]
The Institute of Electronics, Information and Communication Engineers