大規模なブログ記事時系列分析に基づく流行語候補の早期発見手法

Bibliographic Information

Other Title
  • ダイキボ ナ ブログ キジ ジケイレツ ブンセキ ニ モトズク リュウコウゴ コウホ ノ ソウキ ハッケン シュホウ
  • Early Detection of Gradual Buzzwords Based on Large-scale Time-series Analysis of Blog Entries

Search this article

Abstract

本研究では,小さいコミュニティから徐々に広がり,最終的に多くの人々に知れわたるような流行語を拡張型流行語と定義し,ブログ記事を時系列解析することで拡張型流行語の早期発見する手法に関する検討を行った.具体的には,すでにメジャーな流行語となったトピックに対し,ブログ上でどのように拡散していったのかを分析することで,早期発見に必要な分析手法について検討した. kizasi.jp で扱っている 3,776,154 ブログサイトで過去 2 年間に投稿された 81,922,977 件のブログ記事データの分析の結果,流行語候補がメジャーな流行語に発達する過程において,総発言数に占める,対象トピックと関連の深いコミュニティからの発言割合が減少しつつ,関連の薄いコミュニティからの発言割合が増加する状況を確認した.また,対象トピックと関連の深いコミュニティの特定手法を検討するとともに,総発言数に占めるこのコミュニティからの発言数の割合の減少状況について分析を行った.さらに,ライバル関係にある複数の流行語候補のランキングに基づく,提案手法の妥当性の検証を行った結果,良好な結果を得た.

In this paper, we focus on “gradual buzzwords” that begin from a restricted community, spread little by little to other communities, and finally become widely known to most people, and discuss a method for their early detection by analyzing time-series data of blog entries. We observe the process in which certain topics grow to become major buzzwords and determine the key indicators that are necessary for their early detection. From the analysis results based on 81,922,977 blog entries from 3,776,154 blog websites posted in the past two years, we find that as topics grow to become major buzzwords, the percentages of blog entries from the blogger communities closely related to the target buzzword decrease gradually, and the percentages of blog entries from the weakly related blogger communities increase gradually. We also discuss how to identify the blogger communities which are closely related to these buzzwords, and conduct a slope analysis of percentage variation of blog entries from these closely related blogger communities. Moreover, we verify the effectiveness of the proposed method through experimentation that compares the rankings of several buzzword candidates with popularity competition.

Journal

Related Projects

See more

Details 詳細情報について

Report a problem

Back to top