静的解析により抽出されたAPI推移に基づくマルウェアの分類

書誌事項

タイトル別名
  • セイテキ カイセキ ニ ヨリ チュウシュツ サレタ API スイイ ニ モトズク マルウェア ノ ブンルイ
  • Malware Classification Based on Extracted API Sequence by Static Analysis

この論文をさがす

抄録

本論文では,対象とする多数の検体を静的解析することで特徴を抽出し,ソースコードの構成に基づいた,精度の高いマルウェアの自動分類法を提案する.特徴抽出に関する提案手法は,検体の実行コードに対して,API推移依存グラフの,あるAPIとその後に呼び出されるAPIの組の有無を定義し,マルウェアの検体の特徴量とする.検体間の類似度の定義としてDice係数を適用した.特徴が似ている検体群の可視化のため,抽出した特徴量に基づいた階層型クラスタ分析を行う.分析結果は科名ごとに着色された樹形図で提示する.提案手法を評価するため,逆アセンブラ,制御フロー解析器,API推移特徴抽出器,Dice係数生成器,階層型クラスタ分析処理プログラムを制作し,自動マルウェア静的解析システムを構築した.実験として,4,684種類のマルウェアの検体を用意し,API推移抽出に成功した1,821種類の検体に対して,類似度比較による自動分類を実行した.その結果,短い時間で階層型クラスタ分析まで自動処理を実施し,亜種グループを形成する多数の有意なクラスタを得た.

In this paper, we propose highly accurate automatic malware classification method, by extracting features by using static analysis of malware samples, with the structure of malware source code. In the proposal extracting method, existence and non-existence of a particular pairs of API and its subsequent API in API sequence graph is compared with the executable code of a sample, with which feature of malware sample is defined. To determine the degree of similarity between samples, Dice's coefficient has been applied. To visualize the grouping of similarly-featured samples, we have used hierarchical cluster analysis based on the extracted features. The analysis results are presented in dendrogram with colored nodes to each family name. In order to assess the proposed method, we have set up the automatic malware static analysis system with combination of disassembler, control flow analyzer, API sequence extractor, similarity calculator and hierarchical cluster analyzer. We have acquired 4,684 malware samples, and 1,821 of those samples successfully extracted from API sequence have been put to our proposal classification method. As a result, automatic processing has been executed to hierarchical cluster analysis in a short time, and significant clusters of variant groups have been obtained.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ