分散プログラミング言語X10を用いたアナリティクスライブラリの実装と評価

  • 千葉立寛
    日本アイ・ビー・エム(株)東京基礎研究所
  • 竹内幹雄
    日本アイ・ビー・エム(株)東京基礎研究所
  • 戸澤晶彦
    日本アイ・ビー・エム(株)東京基礎研究所

この論文をさがす

抄録

大規模データを解析・分析するためのプラットフォームとして Hadoop をはじめとする様々な分散処理フレームワークが使われている.それに伴い,データマイニングなどで使われるアナリティクスアルゴリズム自身もスケーラブルに実行可能なように最適化する必要がある.現在利用されるライブラリの多くは,R や Python 上に実装されているが,並列性を言語レベルで記述するように設計された言語ではないので,並列分散実行できるように書き換えることは困難である.また,ユーザーが記述可能な処理を限定するプログラミングモデルでは,簡単な処理を並列分散化するのには向いているが,新たに開発されたアルゴリズムを実装する際には,その制約により複雑なロジックを記述し難くなったり,それによって性能低下を引き起こす側面も持つ.一方,OpenMP や MPI などを用いることで細かな最適化をアプリケーションユーザー自身が行うことが可能となるが,ハードウェアやシステム構成,データの送受信などに注意を払ってプログラミングする必要もあり,実装の生産性が低くなるという問題点もある.本稿では,アルゴリズムを実装する際の生産性と実行時の性能スケーラビリティを両立するための実行モデルとして,分散環境上でのアプリケーション実行モデルの 1 つである PGAS モデルに着目し,PGAS および分散プログラミング言語 X10 でアナリティクスライブラリを記述するメリットについて論じる.それを踏まえ,X10 を用いて HMM の学習アルゴリズムと DBSCAN クラスタリングの並列分散化を行い,既存の実装に対する実行性能とスケーラビリティの比較を行った.

収録刊行物

キーワード

詳細情報 詳細情報について

  • CRID
    1570854177874248832
  • NII論文ID
    110009808133
  • NII書誌ID
    AN10463942
  • 本文言語コード
    ja
  • データソース種別
    • CiNii Articles

問題の指摘

ページトップへ