経時的に観測されたテキストデータに対する変化係数モデルに基づく統計的な分類方法と視覚化について

DOI Web Site オープンアクセス

書誌事項

タイトル別名
  • STATISTICAL CLASSIFICATION AND VISUALIZATION BASED ON VARYING COEFFICIENTS MODEL FOR LONGITUDINAL TEXT DATA
  • ケイジテキ ニ カンソク サレタ テキストデータ ニ タイスル ヘンカ ケイスウ モデル ニ モトズク トウケイテキ ナ ブンルイ ホウホウ ト シカクカ ニ ツイテ

この論文をさがす

抄録

近年, Twitter, Facebookのようなソーシャルネットワーキングサービスへの書き込みがビッグデータとして注目されている. そして, それらの書き込みは経時的に観測されたテキストデータとして扱える. そのようなテキストデータからキーワードの経時的な出現傾向を抽出し, その分類を行うことで, テキストデータの特徴的な変化を要約できる可能性がある. 本稿では, 佐藤・冨田 (2013) が提案したセミパラメトリックな変化係数を混合効果モデルのもとで推定する方法を応用して, 経時テキストデータの解析方法を提案する. その方法は, テキストデータに含まれるキーワードの出現の有無を目的変数とするロジスティック回帰を考え, キーワードの出現確率を推定し, 推定曲線の要約量を用いて, 分類および視覚化を行うという複数の解析方法から構成される. この一連の解析方法を用いて広島市の平和宣言を解析した結果, テキストに含まれるキーワードの経時的な出現傾向を記述でき, 時間の影響を考慮した分類結果とキーワードの配置を視覚化した2次元散布図から分類群間の類似性やキーワードの親疎遠近について付加的な情報がもたらされた. さらに, 経時的な出現傾向の分類結果に対して社会背景を考慮した実学的な解釈が可能となり, 提案方法の妥当性が示された.

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ