ルーフラインモデルに基づくベクトルプロセッサ向けプログラム最適化戦略

書誌事項

タイトル別名
  • A Performance Tuning Strategy Based on the Roofline Model for Vector Processors

この論文をさがす

抄録

ベクトルプロセッサにおけるピーク演算性能に対するメモリバンド幅 (Bytes/Flop,以下,B/F) は年々減少している.このため近年のベクトルプロセッサは,低下する B/F を補うためにキャッシュメモリを搭載している.本研究の目的は,キャッシュメモリを有するベクトルプロセッサにおいて高い実行効率を実現するプログラム最適化手法を確立することである.複数のプログラム最適化手法を適用する場合,各々の最適化パラメータにおいてトレードオフが存在する.さらに,これらの最適化を併用する場合には互いの最適化パラメータが影響しあうため,体系的に最良のトレードオフを探索するプログラム最適化戦略が求められる.本論文では,キャッシュを有するベクトルプロセッサの性能を引き出すためのプログラム最適化戦略を提案する.最適化戦略では,最適化の対象となるプログラムのボトルネックをルーフラインモデルにより解析し,ボトルネックを改善する最適化手法を対象プログラムに施す.また,最適化手法として本論文では,ループ変換によるプログラム最適化であるループアンローリングとキャッシュブロッキングに着目する.さらに適用する最適化パラメータは,グリーディサーチアルゴリズムによる探索で決定する.そして,複数のアプリケーションを用いて実効性能と消費エネルギーを評価し,本提案手法の優位性を示す.評価結果より,提案手法を用いることで実効性能が改善でき,さらに消費エネルギーを大幅に削減できることが明らかになった.

Over the last decade, the ratio of memory bandwidth to computational performance (Bytes/Flop, B/F) of vector processors has decreased. To cover the insufficient B/F, modern vector processors are equipped with an on-chip vector cache. The purpose of this work is to establish a performance tuning strategy to exploit the potential of modern vector processors. When several tuning techniques are applied to an application, there is an explicit trade-off between individual tuning techniques. Therefore, a tuning strategy which finds a good trade-off between individual tuning techniques is required. In this paper, a tuning strategy based on the roofline model for modern vector processors is proposed. We focus on two important loop transformations. One is loop unrolling and the other is cache blocking. To decide which of loop unrolling and cache blocking is performed first, the roofline model is employed to analyze the performance bottleneck of a target application. Then, the optimization effective to remove the bottleneck is applied to the application preferentially. To determine the number of loop unrolls and the cache blocking size, we employ the greedy search algorithm. The superiority of the strategy is evaluated with several applications. The evaluation results show that the strategy can improve the performance and also drastically reduce the energy consumption.

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ