細粒度通信機構を持つ並列計算機EM-Xによる疎行列計算の性能評価

書誌事項

タイトル別名
  • Parallelization and Performance Evaluation of Sparse Matrix Computation in The EM - X Multiprocessor
  • サイリュウド ツウシン キコウ オ モツ ヘイレツ ケイサンキ EM-X ニヨ

この論文をさがす

抄録

本稿では,疎行列問題の1つとして,疎行列のCG法を取り上げ,並列計算機EM?Xでの細粒度通信を用いた並列プログラミングと性能について報告する.EM?Xでは,データ駆動機構により細粒度パケットによる通信が効率的に処理されるため,従来のメッセージ通信型プロセッサに比べて,きわめて低レーテンシの通信が可能になっている.細粒度通信機構の効果を評価するため,CG法の主要な演算である行列ベクトル積の計算について,complete exchange のブロック転送を使う方法と,細粒度通信を用いて必要な要素のみを転送する方法,行列計算中に要素ごとにリモートメモリ読み出しを行う方法について比較した.その結果,プロセッサ数が増えるに従って,EM?Xでは必要な要素にのみアクセスを行う細粒度通信による方法が有効であることが分かった.特に,プロセッサあたりの問題サイズが小さくなる場合において,有効である.ブロック転送による方法はいっせい転送によりネットワークがネックになり,効率が低下し,マルチスレッドでレーテンシを隠蔽したリモートメモリ読み出しによる方法はネットワークへの負荷は低いが,スレッド切替え等のオーバヘッドによって性能が低下している.

In this paper,we describe the parallelization of a sparse matrix computation,CG(Conjugate Gradient method) kernel taken from NAS parallel benchmark suite,for the EM-X multiprocessor.Dataflow mechanism of EM-X supports fine-grain communication very efficiently,which provides low latency communication,and flexible message-passing facility.We compare the performance of sparse matrix vector multiplications by the complete exchange communication,by element-wise remote update and by the element-wise remote read with multithreading.The measurements taken on the EM-X indicates effectiveness of the fine-grain communication which enables element-wise access efficiently.Fine-grain communication is effective when problem size per PE becomes small in large scale multiprocessor systems.The complete complete exchange version incurs the negative impact due to the limitation of its bandwidth,and the performance of the element-wise remote read version is degraded by the overhead of context-switching for multithreading.

収録刊行物

被引用文献 (2)*注記

もっと見る

参考文献 (6)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ