バッファキャッシュを用いたSparkシャッフル処理の最適化に向けて

抄録

Sparkの利用は商用の大規模データ解析やバッチ処理において急速に広まっており,最適化による計算資源利用の効率化は重要である.Sparkは特にシャッフル処理によるオーバヘッドが性能低下の原因と知られている.本研究では,シャッフル処理の最適化に向けて,バッファキャッシュ利用の重要性を示すことを目的とする.そのためにTPC-Hベンチマークのクエリ22種類の性能を分析し,特徴的なクエリをさらに掘り下げて分析をする.現状で得られている知見は,バッファキャッシュ利用率を上げるためにヒープ使用量をできるだけ削減することが重要であることがわかっている.特に,spillが発生してもバッファキャッシュ利用率を優先すべき場合もあることや,Spark/JVMのメモリがバッファキャッシュを圧迫して性能が低下する場合があることを確認している.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1050855522100512896
  • NII論文ID
    170000173861
  • Web Site
    http://id.nii.ac.jp/1001/00176005/
  • 本文言語コード
    ja
  • 資料種別
    conference paper
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ