マルチコアプロセッサ上での粗粒度タスク並列処理のためのコンパイラによるローカルメモリ管理手法

書誌事項

タイトル別名
  • マルチコアプロセッサ ジョウ デ ノ ソリュウド タスク ヘイレツ ショリ ノ タメ ノ コンパイラ ニ ヨル ローカルメモリ カンリ シュホウ
  • Local Memory Management Scheme by a Compiler on a Multicore Processor for Coarse Grain Task Parallel Processing

この論文をさがす

抄録

リアルタイム性および高性能,低電力が要求される情報家電機器では,オフチップ共有メモリに加え,小容量高速なローカルメモリを搭載したマルチコアプロセッサが開発されている.しかしながら,プログラマが手動でローカルメモリ容量を考慮しつつローカリティの最適化を行うことはきわめて困難であり,プログラム開発期間の短縮のためにはコンパイラによる自動最適化が必要となる.そこで,本論文では,容量制約のあるローカルメモリを有効に利用するための並列化コンパイル手法を提案する.提案手法ではまず,粗粒度タスク並列処理によりループやサブルーチン間の並列性を抽出する.続いてループ整合分割により,ローカルメモリサイズを考慮した粗粒度タスク分割を行う.従来のデータローカライゼーション手法は,分割されたデータを固定的にローカルメモリに割り当てていた.提案手法では,タスク分割後,データの定義あるいは参照時刻に基づくローカルメモリの割当てと解放を行い,より柔軟なローカルメモリ管理を実現する.オーディオ圧縮に用いられる AAC エンコーダを用いた性能評価の結果,固定的な割当てを行う従来のデータローカライゼーション手法と比較し,SH4A を 4 コア集積した RP1 マルチコア上で,約 2.6 倍,8 コア集積した RP2 マルチコア上で,約 2.5 倍の速度向上がそれぞれ得られた.

Multicore processors integrating a small fast local memory for each core in addition to an off-chip shared memory has been developed for consumer electronics to meet real-time constraints, high performance and low power demand. However, data locality optimization by hand considering local memory size is much difficult. Therefore automatic compilation optimization is necessary to speed up application development time. This paper proposes a parallelizing compilation scheme which realizes effective use of limited local memory. First, the proposed scheme extracts parallelism among loops or subroutines using coarse grain task parallel processing. Subsequently, a loop is decomposed into smaller loops to fit local memory size using loop aligned decomposition. A conventional data localization scheme allocates decomposed data to fixed local memory address. On the other hand, the proposed scheme effectively allocates and deallocates decomposed data based on data definition and reference time. As the results, the proposed scheme gives us about 2.6 times speedup for AAC encoding program against the conventional scheme which does not manage each array on RP1 4 SH4A multicore processor and about 2.5 on RP2 8 SH4A multicore processor, respectively.

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ