半教師ありトピックモデルにより選択した地域特徴語を用いたTwitterユーザの生活に関わる地域の推定

書誌事項

タイトル別名
  • Estimation of Twitter User's Life-area Using Area Related Terms Selected by Semi-supervised Topic Model

この論文をさがす

抄録

Twitterにおいて,ユーザの生活に関わる地域は,社会行動の分析において重要な属性の1つであるが,プロファイルに明示的に記述されていることは少ない.本研究では,Twitterユーザを対象として,半教師ありトピックモデルを利用した地域特徴語の選択に基づく,生活に関わる地域属性の推定手法を提案する.本研究では,半教師ありトピックモデルにより地域に特徴的な語を選択する.具体的には,地域情報サイトから収集した地域特徴語を含むツイートを教師データとした,半教師ありトピックモデルにより,地域に特徴的なトピックを抽出する.そして,トピックから選定した地域特徴語を使用し,ツイートごとに地域ラベルを付与する.各ユーザの生活に関わる地域は,ユーザのツイートに割り当てられた地域ラベルに基づき推定する.提案手法に基づき,都道府県を,生活に関わる地域の単位とし,16の都道府県を対象として,ユーザの生活に関わる地域の推定実験を行ったところ,精度0.65,再現率0.67,F値0.66の評価値が得られた.

In Twitter, the life area of a user is an important attribute that is used for social behavior analysis. In most cases, information regarding a user's life area is not explicitly published in their Twitter profiles. We propose a method to identify the nature of a user's life area using area clue terms selected by a semi-supervised topic model. We extracted area-oriented topics by semi-supervised learning using terms collected from an area information website as supervision. We assigned an area label to each tweet using area-oriented terms from the extracted topics. The nature of a Twitter user's life area is identified as the area label that is most frequently used for topics identified in the user's tweets. We have evaluated our approach using 1,600 users from 16 Japanese prefectures. The result for precision, recall, and F-measure were 0.65, 0.76, and 0.66, respectively.

収録刊行物

関連プロジェクト

もっと見る

詳細情報

  • CRID
    1050845762834717056
  • NII論文ID
    110009828210
  • NII書誌ID
    AA11464847
  • ISSN
    18827799
  • Web Site
    http://id.nii.ac.jp/1001/00103208/
  • 本文言語コード
    ja
  • 資料種別
    article
  • データソース種別
    • IRDB
    • CiNii Articles
    • KAKEN

問題の指摘

ページトップへ