経時的に観測されたテキストデータに対する変化係数モデルに基づく統計的な分類方法と視覚化について STATISTICAL CLASSIFICATION AND VISUALIZATION BASED ON VARYING COEFFICIENTS MODEL FOR LONGITUDINAL TEXT DATA

この論文にアクセスする

この論文をさがす

著者

抄録

 近年, Twitter, Facebookのようなソーシャルネットワーキングサービスへの書き込みがビッグデータとして注目されている. そして, それらの書き込みは経時的に観測されたテキストデータとして扱える. そのようなテキストデータからキーワードの経時的な出現傾向を抽出し, その分類を行うことで, テキストデータの特徴的な変化を要約できる可能性がある. 本稿では, 佐藤・冨田 (2013) が提案したセミパラメトリックな変化係数を混合効果モデルのもとで推定する方法を応用して, 経時テキストデータの解析方法を提案する. その方法は, テキストデータに含まれるキーワードの出現の有無を目的変数とするロジスティック回帰を考え, キーワードの出現確率を推定し, 推定曲線の要約量を用いて, 分類および視覚化を行うという複数の解析方法から構成される. この一連の解析方法を用いて広島市の平和宣言を解析した結果, テキストに含まれるキーワードの経時的な出現傾向を記述でき, 時間の影響を考慮した分類結果とキーワードの配置を視覚化した2次元散布図から分類群間の類似性やキーワードの親疎遠近について付加的な情報がもたらされた. さらに, 経時的な出現傾向の分類結果に対して社会背景を考慮した実学的な解釈が可能となり, 提案方法の妥当性が示された.

Lately written texts to social networking services like Twitter and Facebook are attracted to attention as big data. And these texts can be treated as longitudinally observed text data. Extraction of the longitudinal trends of keyword appearance and its classification can summarize the changes of characteristics in longitudinal text data. We propose a analytical method of the longitudinally observed text data, with an application of the method of estimating semiparametric varying coefficients using a mixed effects model proposed by Satoh and Tonda (2013). Our method consists of series of analytical methods, estimating the probability of keyword appearance using a logistic regression for the keyword appearance in the longitudinally observed text data, and classifying and visualizing the longitudinal trends of keyword appearance using summary of predictors. Results from the analysis of Hiroshima Peace Declaration enabled us to describe the longitudinal trends of keyword appearance in the text data. And the time affected classification results and the keyword location are visualized in a two-dimensional scatter plot, which provided additional information on the analogy between two classifications and the degree of intimacy with keywords. Further some practical interpretations of the classified results with consideration of social background implied an appropriateness of our proposal.

収録刊行物

  • 計算機統計学

    計算機統計学 28(1), 81-92, 2015

    日本計算機統計学会

各種コード

  • NII論文ID(NAID)
    130005631732
  • NII書誌ID(NCID)
    AN10195854
  • 本文言語コード
    JPN
  • ISSN
    0914-8930
  • NDL 記事登録ID
    026598549
  • NDL 請求記号
    Z14-1382
  • データ提供元
    NDL  J-STAGE 
ページトップへ