トピックモデルを用いたセキュリティレポートのマルチラベリングのための分割重複入力

書誌事項

タイトル別名
  • Partition-Then-Overlap Method for Labeling Cyber Threat Intelligence Reports by Topic Model

抄録

日々増加していくセキュリティレポートから,セキュリティオペレーターが所望の情報を得やすくするためには,内容に応じて適切なマルチラベルを付与することが望まれる.大規模かつ不均質な文書集合から何かしらの情報を獲得するための統計的モデリング手法の一つとしてトピックモデルがあり,マルチラベリングに用いることができる.トピックモデルではトピック数が主要なハイパーパラメータであり,単調増加するセキュリティレポートに対してトピック数を適切に変更していく単純な方法では,ハイパーパラメータの探索と再学習の時間が増えるばかりである.そこで本論文では,入力数が増えてもトピック数を大きくしないという方針の下に,入力データセットを重なり期間をもたせて一定期間で分割してトピックモデルに入力する手法を提案する.トピックモデルとしてLatent Dirichlet Allocation(LDA)とTopics Over Time(TOT)に提案手法を適用したデータセットを入力した結果,セキュリティレポートのマルチラベリングとしてふさわしい単語を含むトピックを多く抽出できることが示唆された.

It is desirable to assign appropriate multi-labels depending on the content for retrieving information from security reports. One of the statistical modeling techniques for assigning multi-labels to a large and heterogeneous set of documents is the topic model. However, the approach of changing the number of topics for an increasing number of security reports using the topic model only increases the time required to compute the hyperparameters. In this paper, we propose a method to divide an input data set with an overlapping period of time, based on the idea that the number of topics does not increase as the number of inputs increases. As a result of inputting a dataset of Latent Dirichlet Allocation (LDA) and Topics Over Time (TOT) as topic models, the proposed method can extract a lot of topics that contain words suitable for multi-labeling of security reports.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1050855522064865408
  • NII論文ID
    170000183978
  • Web Site
    http://id.nii.ac.jp/1001/00208443/
  • 本文言語コード
    ja
  • 資料種別
    conference paper
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ