分散共有メモリを用いた並列FFTとその最適化  [in Japanese] Parallel Implementation of FFT Algorithms on Distributed Shared Memory Architecture and Its Optimization  [in Japanese]

Access this Article

Search this Article

Author(s)

    • 額田 彰 NUKADA AKIRA
    • 東京大学大学院情報理工学系研究科コンピュータ科学専攻 Department of Computer Science, Graduate School of Information Science and Technology, The University of Tokyo
    • 西田 晃 NISHIDA AKIRA
    • 東京大学大学院情報理工学系研究科コンピュータ科学専攻 Department of Computer Science, Graduate School of Information Science and Technology, The University of Tokyo
    • 小柳 義夫 OYANAGI YOSHIO
    • 東京大学大学院情報理工学系研究科コンピュータ科学専攻 Department of Computer Science, Graduate School of Information Science and Technology, The University of Tokyo

Abstract

本研究では,高速なマイクロプロセッサItanium を搭載した分散共有メモリシステムNEC Itanium ccNUMAサーバ(AzusA)上で並列FFT(Fast Fourier Transform)アルゴリズムを実装し,224点FFTの計算において8PEで3.12 Gflops(ピーク性能の13.3%)という高い性能を引き出すことができた.分散共有メモリアーキテクチャで重要となるデータの配置方法の違いによる性能差を分析し,適した配置方法を選択した.また従来のキャッシュメモリを有効利用するFFT アルゴリズムに改良を加えin-placeアルゴリズムに対応させた.これにより使用するキャッシュメモリ量が少なくなり,より大きなサイズのFFTを計算する場合においても高い性能を出すことができる.In this study, we implemented parallel FFT (Fast Fourier Transform) algorithm on a distributed shared memory system, NEC Itanium cc-NUMA server (AzusA). We achieved 2.88 Gflops with 8 processors (12.4% of peak) for computing 224-point FFT. On distributed shared memory systems, data placement is important for high performance. Therefore, we have to use proper data placement. And we improved the conventional algorithm that is suitable for shared memory systems. In our algorithm, we can use in-place FFT algorithms,and can compute FFT of larger size on limited cache memory.

In this study, we implemented parallel FFT (Fast Fourier Transform) algorithm on a distributed shared memory system, NEC Itanium cc-NUMA server (AzusA). We achieved 2.88Gflops with 8 processors (12.4% of peak) for computing 2^<24>-point FFT. On distributed shared memory systems, data placement is important for high performance. Therefore, we have to use proper data placement. And we improved the conventional algorithm that is suitable for shared memory systems. In our algorithm, we can use in-place FFT algorithms, and can compute FFT of larger size on limited cache memory.

Journal

  • 情報処理学会論文誌コンピューティングシステム(ACS)

    情報処理学会論文誌コンピューティングシステム(ACS) 44(SIG06(ACS1)), 1-8, 2003-05-15

    Information Processing Society of Japan (IPSJ)

References:  10

Codes

  • NII Article ID (NAID)
    110002765083
  • NII NACSIS-CAT ID (NCID)
    AA11833852
  • Text Lang
    JPN
  • Article Type
    Article
  • ISSN
    1882-7829
  • NDL Article ID
    6528744
  • NDL Call No.
    Z74-C192
  • Data Source
    CJP  NDL  NII-ELS  IPSJ 
Page Top