アクセラレータによる四倍精度演算 Fast Quad-Precision Operations On Many-core Accelerators

この論文にアクセスする

この論文をさがす

抄録

本論文では,GRAPE-DRやGPU などのメニーコアアクセラレータにおける,四倍精度演算 (DD 演算) の性能評価について報告する.四倍精度相当の演算は倍精度演算器を利用することでエミュレーションすることができる.しかしそのためには DD 演算あたり 20-23 回の倍精度演算が必要であり,DD 演算の演算性能は,倍精度演算性能と比べると 20 分の 1 以下となる.また,通常の CPU では,利用できる論理レジスタが最大で 16 個であるため,DD 演算性能はさらに低下する.一方で,メニーコアアクセラレータをベクトル型演算器と考えると,実効的なレジスタ数が非常に多いため,ループアンローリングが効果的に働くことで,演算レイテンシを完全に隠蔽できる.我々は GRAPE-DR と GPU で DD 演算をおこなうための基本ライブラリとそれを利用するためのコンパイラを開発した.これにより,メニーコアアクセラレータでの DD 演算性能を調べた.結果,通常の CPU での DD 演算性能より 30 - 90 倍の高速化が可能であることがわかった.In this paper, we present a performance analysis of many-core accelerators like GPU and GRAPE-DR with a special attention to an emulation scheme of double-double (DD) operations. The emulation scheme requires 20 and 23 double operations for add and mul DD operations, respectively. Accordingly, a performance of DD operations on a general purpose CPU is at least 20 times slower than its performance of D operations. In addition, the CPU has only 16 logical registers so that an optimization technique called loop-unrolling to hide latency of D opearations is not effective. On the other hand, many-core accelerators have much many logical registers of more than 30,000. That is the loop-unrolling technique is highly effective on many-core accelerators to completely hide the operation latency. We have developed a basic library for RV770 GPU and GRAPE-DR and a compiler system for the many-core accelerators. The obtained performance of DD operations on RV770 GPU and GRAPE-DR is 30 - 90 times faster than the performance of the general purpose CPU.

収録刊行物

  • 研究報告ハイパフォーマンスコンピューティング(HPC)

    研究報告ハイパフォーマンスコンピューティング(HPC) 2009-HPC-121(39), 1-7, 2009-07-28

    情報処理学会

被引用文献:  5件中 1-5件 を表示

各種コード

  • NII論文ID(NAID)
    110007995434
  • NII書誌ID(NCID)
    AN10463942
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    1884-0930
  • NDL 記事登録ID
    024773879
  • NDL 請求記号
    YH247-911
  • データ提供元
    CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ