Twitterを用いたコンテキストと入力文字列の相関関係分析

Bibliographic Information

Other Title
  • Twitter オ モチイタ コンテキスト ト ニュウリョク モジレツ ノ ソウカン カンケイ ブンセキ
  • Relationship Analysis between User Contexts and Input Word with Twitter

Search this article

Abstract

本研究の目的は,我々がこれまでに提案しているコンテキストアウェア日本語入力システムの実現に向けて,ユーザの位置と実際に入力された文字列との相関関係を明らかにすることである.本論文では,位置情報付き日本語データの中から,位置依存性の高いキーワードを抽出する手法を2つ提案する.データとしては,2009年12月から収集しているTwitter上のツイート約50万件を用いる.提案手法1では,あるキーワードを含むツイート群に対して,緯度と経度の標準偏差を求め,ツイート群のばらつきの度合いから,そのキーワードの位置依存性を測る.提案手法2では,複数の位置に依存しているキーワード(たとえば,チェーン展開している店舗名など)を高速に抽出するための手法として,探索を3階層(100kmの正方エリア,10kmの正方エリア,1kmの正方エリア)に分けて行うことにより,提案手法1では検出できない,全国に分散したキーワードがある確率以上で出現する1km正方エリアの高速な抽出を実現している.

The objective of this study is to specify the relationship between user's context and really-used words for realizing the context-aware Japanese text input method editor. We propose two analytical methods for finding location-dependent words from a half million tweets including Japanese and geographical location, which have been collected since Dec. 2009. First method is to analyze the standard deviation of both latitude and longitude of all the tweets including a certain word. It is very simple way, but it cannot find out the keywords that depend on multiple locations. For example, tweets including famous department store's name has a large standard deviation, but they may depend on each location. Therefore, we propose three-tier breadth first search, where the searching area is divided into some square mesh, and we extract the area which includes tweets more than average of upper area. In addition, we re-divide the extracted areas into smaller areas. Our method can extract some locations for one keyword.

Journal

Related Projects

See more

Keywords

Details 詳細情報について

Report a problem

Back to top