Pandasデータ解析ライブラリで記述された機械学習前処理の性能最適化に関する検討

書誌事項

タイトル別名
  • Performance Optimizations of Machine Learning Pre-Processing Written in Pandas Data Anlytics Library

この論文をさがす

抄録

従来,機械学習においては,ロジスティック回帰分析等のモデルの実行性能が重要視され,GPU等のハードウェアアクセラレータにより最適化されてきた.しかしながら,モデルの推論精度を向上させるためには,特徴量エンジニアリングを含めたデータの前処理が重要であり,それらの前処理の実行性能は十分に最適化されていない.本発表では,Pandasデータ解析ライブラリで記述された機械学習前処理の性能を最適化する手法を提案する.Pandasは,Pythonで記述されたデータ解析ライブラリであり,その利便性のため,多くのデータサイエンティストに利用されている.しかしながら,すべてのライブラリがPythonで実装されているため,高い性能を求めることが難しい.我々の提案手法は,Pandasで記述された機械学習前処理をONNX形式に変換し,高速な機械学習フレームワークを利用することにより性能向上を目指す.本発表では,我々が実装中のPandasからONNXの変換ツールの概要,およびPandasで記述された前処理とONNXランタイム上の前処理の性能比較について報告を行う.

In machine learning, researchers and developers have been optimizing the performance of machine-learning models such as loggistic regression by using hardware accelerators such as GPU. However, data pre-processing was not the main forcus of the performance optimization even though it is very important to improve the inferencing accuracy of machine-learning models. This presentation proposes a method to optimize the performance of the data pre-processing code witten in Pandas which is a data analytics library. Pandas has been widely used by many data scientists due to its useful data anlytics APIs. However, Pandas is not so fast because it is written in Python which has type checking overhead and serializes the execution. Our proposed method aims to improve the performance of data pre-processing by converting the data pre-processing code written in Pandas into an ONNX graph, which is a standard formant to represent machine-learning models, and then running the graph on other high-performance machine learning platforms such as Tensorflow. This presentation overviews our tool to covert the Pandas code into an ONNX graph, and then show how the performance of data pre-processing is improved.

収録刊行物

詳細情報

  • CRID
    1050006585495651456
  • NII論文ID
    170000184913
  • NII書誌ID
    AA11464814
  • ISSN
    18827802
  • Web Site
    http://id.nii.ac.jp/1001/00210964/
  • 本文言語コード
    ja
  • 資料種別
    article
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ