Tightly Coupled Acceleratorsアーキテクチャに基づくGPUクラスタの構築と性能予備評価

書誌事項

タイトル別名
  • Development and Preliminary Evaluation of GPU Cluster Based on Tightly Coupled Accelerators Architecture

この論文をさがす

抄録

GPUなどの演算加速装置を用いたクラスタがHPCシステム向けに広く使われている.しかしこのようなクラスタでは,ノード間をまたがる演算加速装置間の通信において,CPUを介した複数回のメモリコピーが必要であった.このレイテンシ増加はアプリケーション性能を著しく低下させる.そこで,筑波大学計算科学研究センターでは,大規模GPUクラスタであるHA-PACSとしてコモディティ技術による大規模GPUクラスタ部分に加え,ノード間接続およびGPU間接続に,レイテンシとバンド幅の改善を目指した独自開発の密結合並列演算加速機構TCA(Tightly Coupled Accelerators)の開発を行っている.本論文では,TCAを実現する通信機構PEACH2とその基本転送性能の評価について述べる.さらにTCAを用いたアプリケーションの予備評価として,隣接2ノード間のping-pong通信における性能を測定し,従来の通信機構と比較した.その結果,ノードをまたぐCPUメモリ間転送では,最小レイテンシは0.9μsを実現し,最大バンド幅は3.5GB/sと,理論ピークの96%の性能が得られた.ノードをまたぐGPUメモリ間転送においては,最小で2.3μsのレイテンシを実現し,短いメッセージ長ではCUDAによるノード内GPU間転送を超える性能を示した.

In recent years, heterogenious clusters using accelerators are widely used for high performance computing system. In such clusters, the inter-node communication among accelerators requires several memory copies via CPU memory, and the communication latency causes severe performance degradation. To address this problem, we propose Tightly Coupled Accelerators (TCA) architecture to reduce the communication latency between accelerators over different nodes. In addition, we promote the HA-PACS project in Center for Computational Sciences, University of Tsukuba not only in order to build up HA-PACS base cluster system, as the commodity GPU cluster, but also in order to develop the experimental system based on TCA architecture, as the proprietary interconnection network connecting among accelerators beyond the nodes. In the present paper, we describe TCA architecture, and the design and implementation of PEACH2 to realize TCA architecture. We also evaluate the basic performance of PEACH2 chip, and the performance of ping-pong communication compared with the conventional communication method for among GPUs. The results demonstrate that the PEACH2 chip has a latency between adjacent nodes of 0.9μsec in minimum, and sufficient maximum performance with 95% of the theoretical peak performance in the case of inter-CPU communication. In the case of inter-GPU communication between adjacent nodes, we achieve the better performance with 2.3μsec latency in minimum than the inter-GPU comminucation latency within a node using CUDA.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1050564287857755648
  • NII論文ID
    110009616690
  • NII書誌ID
    AA11833852
  • ISSN
    18827829
  • Web Site
    http://id.nii.ac.jp/1001/00095735/
  • 本文言語コード
    ja
  • 資料種別
    article
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ