Read/Search this Article
Abstract
計算機クラスタなどの並列計算機では, 構成台数の増加に伴いシステム全体の障害発生率が高くなるため, 耐故障性実現が重要になる.従来のCP手法ではハードウェア機能障害によるデータ誤りを検出できないため, データ誤りから回復可能な手法としてCP比較手法が提案されており, その従来手法に, RB手法, RFCS手法, FCS手法などがある.しかし, その問題点として, RFCS手法では専用の予備計算機が必要であること, またRB手法とFCS手法では固定故障によるデータ誤りを検出できないことが挙げられる.そこで, 提案手法では, 上記の問題点を解決した手法をそれぞれ提案し、シミュレーションにより, 2つの提案手法ともに従来手法と同程度の平均実行時間となることを確認した.
In cluster computing, the more computers are used, the higher the failure rate would be. Since existing checkpointing schemes can't detect the value fault caused by permanent fault, checkpoint comparing schemes, such as RB, RFCS, and FCS schemes has been proposed. However, the RFCS scheme tolerates permanent fault with dedicated spares. The RB scheme and the FCS scheme can't tolerate value fault caused by permanent fault. We proposed two schemes, which can resolve above problems of previous schemes. Computer simulations show that the average execution time of two proposed schemes is almost equal to that of existing schemes.
Journal
- Technical report of IEICE. FTS [List of Volumes]
-
Technical report of IEICE. FTS 101(505), 9-16, 2001-12-07 [Table of Contents]
The Institute of Electronics, Information and Communication Engineers