長方行列向け特異値分解の浮動小数点コプロセッサによる高速化

書誌事項

タイトル別名
  • チョウホウ ギョウレツ ムケ トクイチ ブンカイ ノ フドウ ショウスウテン コプロセッサ ニ ヨル コウソクカ
  • Acceleration of the Singular Value Decomposition Algorithm for Rectangular Matrices with a Floating-point Coprocessor

この論文をさがす

抄録

本論文では,ClearSpeed社の浮動小数点コプロセッサCSX600を用いた長方行列の特異値分解の高速化について報告する.長方行列の特異値分解は,入力行列AのQR分解 A=QR,行列Rの二重対角化,二重対角行列の特異値分解,逆変換,QR分解の逆変換の5つのステップからなる.本研究では,この各部分においてlevel-3 BLASのDGEMM(行列乗算)を効率的に利用できるようにアルゴリズムをチューニングし,DGEMMの部分をCSX600で高速に実行する方式をとった.CSX600を2個搭載したボードを用いて本方式を実装し,様々なサイズの長方行列に適用した結果,40000×2000の行列の場合に,Xeon(3.2GHz)の2.3倍の性能が得られた.また,さらなる性能向上のための課題を明らかにした.

In this paper, we propose an approach for accelerating the singular value decomposition (SVD) of a rectangular matrix with the CSX600 floating point coprocessor. The SVD of rectangular matrices consists of five steps, namely, QR decomposition of the input matrix A, transformation of R into a bidiagonal matrix, SVD of the resulting bidiagonal matrix, back-transformation and back-transformation corresponding to the QR decomposition. In our study, we optimize each step so that most of the computation is done using the level-3 BLAS (DGEMM) and accelerate the execution of DGEMM with the CSX600. We implemented the proposed method using an accelerator board with two CSX600 chips and obtained up to 2.3 times speedup over 3.2GHz Xeon processor when computing the SVD 40000×2000 rectangular matrix. Technical issues for further improving the performance are also discussed.

収録刊行物

被引用文献 (1)*注記

もっと見る

参考文献 (28)*注記

もっと見る

関連プロジェクト

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ