マイクロブログにおけるトピック出現量推移の高速な抽出

書誌事項

タイトル別名
  • Fast Extraction of Time Series Variation for Topic Popularity in Microblogs

この論文をさがす

抄録

近年,多くのメディアでは,関係するツイートの出現量が時間経過によって急上昇する話題を対象に情報発信が行われており,Twitterの話題の分析において話題の出現量の推移が注目されている.Twitterではハッシュタグが一部のツイートにしか与えられていないため,すべてのツイートに含まれる話題の推移を網羅的に観測することは容易ではない.この問題に対して,Biterm topic model(BTM)によってトピックを推定し,推定したトピックの出現量を利用する方法が有効である.しかし,Twitterではリアルタイムに膨大なツイートが更新されるため,トピックの推定やトピック出現量の計算において時間的な効率性が求められる.本研究では,ツイートデータを対象に,高速にトピックを学習し,各トピックの単位時間あたりの出現量の計算を効率的に行う手法を提案する.提案手法では,BTMに対してミニバッチ学習を適用し,トピック学習の高速化を図る.またトピック出現量の計算では,一部のデータを用いた近似的な計算を行うことによって,実質的な高速化を図る.実験では,提案手法が既存手法より汎化性能が優れつつ学習における処理時間が短縮できることを確認した.またトピック出現量を近似する方法について複数の方法を示し,近似による誤差の大きさと処理時間の短縮の観点から比較と検討を行った.

Recently, Twitter has attracted as a media that reflects popular topics in real time. Especially, many media provide the information of the topics that the number of tweets belonging to itself suddenly increases. However, because most tweets are not classified by tagging, it is hard to observe the time series variation of the topic from all tweets. In order to solve this problem, a method using the topic model, which is a method for estimating topics by documents, is proposed. However, since tweets are posted enormous tweets in real time, we need efficient methods for estimating topics and calculating the topic popularity. We propose the efficient method to estimate topics and calculate the time series variation for the topic popularity for tweets. In order to speed up the estimation of topics, we improve Biterm topic model, which is an effective method for short texts, to minibatch training. In addition, we propose a method to efficiently calculate the approximate topic popularity from partial data, Our experiments suggest that the proposed method has higher generalization ability and faster training time than baseline. Also, we discuss efficient and less lossy methods that calculating the topic popularity from several methods.

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

  • CRID
    1050564288781116288
  • NII論文ID
    170000180555
  • NII書誌ID
    AA11464847
  • ISSN
    18827799
  • Web Site
    http://id.nii.ac.jp/1001/00199666/
  • 本文言語コード
    ja
  • 資料種別
    article
  • データソース種別
    • IRDB
    • CiNii Articles
    • KAKEN

問題の指摘

ページトップへ