分散共有メモリを用いた並列FFTとその最適化

書誌事項

タイトル別名
  • ブンサン キョウユウ メモリ オ モチイタ ヘイレツ FFT ト ソノ サイテキカ
  • Parallel Implementation of FFT Algorithms on Distributed Shared Memory Architecture and Its Optimization

この論文をさがす

抄録

本研究では,高速なマイクロプロセッサItanium を搭載した分散共有メモリシステムNEC Itanium ccNUMAサーバ(AzusA)上で並列FFT(Fast Fourier Transform)アルゴリズムを実装し,224点FFTの計算において8PEで3.12 Gflops(ピーク性能の13.3%)という高い性能を引き出すことができた.分散共有メモリアーキテクチャで重要となるデータの配置方法の違いによる性能差を分析し,適した配置方法を選択した.また従来のキャッシュメモリを有効利用するFFT アルゴリズムに改良を加えin-placeアルゴリズムに対応させた.これにより使用するキャッシュメモリ量が少なくなり,より大きなサイズのFFTを計算する場合においても高い性能を出すことができる.

In this study, we implemented parallel FFT (Fast Fourier Transform) algorithm on a distributed shared memory system, NEC Itanium cc-NUMA server (AzusA). We achieved 2.88 Gflops with 8 processors (12.4% of peak) for computing 224-point FFT. On distributed shared memory systems, data placement is important for high performance. Therefore, we have to use proper data placement. And we improved the conventional algorithm that is suitable for shared memory systems. In our algorithm, we can use in-place FFT algorithms,and can compute FFT of larger size on limited cache memory.

収録刊行物

参考文献 (10)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ