組込マルチコア用OSCAR APIを用いたTILEPro64上でのマルチメディアアプリケーションの並列処理

書誌事項

タイトル別名
  • Parallel processing of multimedia applications on TILEPro64 using OSCAR API for embedded multicore

抄録

組み込み分野においてもマルチコア・メニーコアは広く利用され,そのコア数は今後ますます増加する.しかしながら手動並列化によりコア数の増加に応じたアプリケーションの性能向上を得るのは費用・期間の面から困難となっている.本稿では C 言語で記述されたマルチメディアアプリケーションを OSCAR 自動並列化コンパイラを用い並列化し,情報家電マルチコア用並列化 API である OSCAR API を挿入した並列プログラムを自動生成すると共に、生成プログラムを 64 コアの Tilera 社 TILEPro64 メニーコアプロセッサ上で実行するときにデータのキャッシュへの割り付け方式について検討し, TILEPro64 で並列処理した際の処理性能について報告する. 64 コアを用いた性能評価の結果, OSCAR コンパイラによる並列化により,各スレッドがアクセスするメモリ領域は適切に分割されプロセッサ近接のキャッシュに割当てられるため, TILEPro64 上では,ヒープや .bss のページをローカルなキャッシュ上に適切に配置することにより, 1 コアでの実行に対し JPEG XR エンコーダで 55 倍, Optical Flow で 30 倍, MPEG2 エンコーダで 15 倍, AAC エンコーダで 47 倍の性能向上が得られ, OSCAR 自動並列化コンパイラがメニーコアにおいてもコア数増加に応じたスケーラブルな性能向上を得られることが確認できた.また TILEPro64 上で高いスケーラビリティを得るために必要となるキャッシュ利用設定が明らかになった.

Multicore processors and many-core processors have been used widely in embedded areas. The number of cores in these multi/many-cores in increasing more and more. However, it is difficult to achieve scalable performance improvement along with the increasing numbers of cores with parallelized applications by hand because of the cost and time. This paper describes the performance of several automatically parallelized multi-media applications with considering cache assignment method on 64-cores TILEPro64 many-core processor. These applications are written in C language, and are parallelized by OSCAR automatic parallelization compiler. OSCAR Compiler generates parallelized C programs by inserting compiler directives of OSCAR API, which enables parallel processing on the multicore for consumers electronics. Memory regions accessed by threads are devided properly and assigned to the cache near the processor by OSCAR Compiler. By assigning heap/.bss page to the local cache, the evaluation results using 64-cores show 55 times speedup on JPEG XR encoder, 30 times speedup on optical flow calculation, 17 times speedup on MPEG2 encoder and 47 times speedup on AAC encoder compared to sequential execution. These results show that the OSCAR automatic parallelization compiler can achieve scalable performance improvement along with increasing numbers of cores. This also reveal a necessary configuration for cache utilization to achieve higher scalability on TILEPro64.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1050574047114428032
  • NII論文ID
    170000072411
  • Web Site
    http://id.nii.ac.jp/1001/00085989/
  • 本文言語コード
    ja
  • 資料種別
    conference paper
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ