共有メモリ型並列計算機上の行列計算に対する並列化手法の性能評価

書誌事項

タイトル別名
  • キョウユウ メモリガタ ヘイレツ ケイサンキ ジョウ ノ ギョウレツ ケイサン ニ タイスル ヘイレツカ シュホウ ノ セイノウ ヒョウカ
  • Performance Evaluation of Parallelizing Techniques for Matrix Computations on Shared Memory Parallel Computers

この論文をさがす

抄録

共有メモリ型並列計算機において線形計算プログラムを並列化する方法としては,全体の処理をOpenMPで並列化する方法,行列・ベクトル演算を扱うBLASを並列化する方法の2つの方法がある.本研究では,HITACHI SR8000 1ノードを共有メモリ型並列計算機と見なして,連立一次方程式の直接解法および固有値問題を例に,これら2種類の並列化手法を採用した線形演算ライブラリの性能を比較し,各並列化手法の効果と問題点を明らかにする.また,BLASを並列化・チューニングする際,扱う問題によってどのレベルのBLASを並列化・チューニングすれば性能改善効果が大きいかを述べる.実験の結果より,2つの並列化手法の優劣は対象とアルゴリズムにより異なること,チューニングの効果が大きいBLAS レベルはアルゴリズムに依存することが明らかになった.

There are two methods of parallelizing the programs for numerical linear algebra on shared memory parallel computers. One is the method which parallelizes a round sum of process in the main routine by using OpenMP. The other is the method where the BLAS routines for basic operations in linear algebra are highly parallelized. In this paper, we evaluate the performance of two linear algebra libraries with each parallelizing technique on a single node of HITACHI SR8000 as a shared memory parallel computer, and clarify the features of each parallelizing technique. For comparison, direct solution of linear systems and eigenvalue problems are considered. Furthermore, in order to make clear which of BLAS levels should be highly parallelized and tuned for the improvement of the performance for each problem and algorithm, we present an entire data for each problem which exhausts all the combinations of tuned/not-tuned BLAS for each BLAS level. The results for performance evaluation show that the parallelizing technique which should be adopted as well as the BLAS level which should be highly tuned is strongly dependent on the problem and the algorithm for it under consideration.

収録刊行物

被引用文献 (1)*注記

もっと見る

参考文献 (22)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ