document streamにおけるburstの発見  [in Japanese] Identification of bursts in a document stream  [in Japanese]

Access this Article

Search this Article

Author(s)

    • 藤木 稔明 FUJIKI Toshiaki
    • 東京工業大学大学院 総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
    • 南野 朋之 NANNO Tomoyuki
    • 東京工業大学大学院 総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
    • 奥村 学 OKUMURA Manabu
    • 東京工業大学 精密工学研究所 Precision and Intelligence Laboratory, Tokyo Institute of Technology

Abstract

近年、Web上には様々な意見情報が存在している。そのため、Web上でいつ、どのような情報が注目されていたかを把握することは企業活動にとって重要な情報になりつつあると考えられている。本研究では特にblogと電子掲示板を対象とし、その中で注目されている話題を示すトピックワードを発見するための手法を提案する。提案手法は、Kleinbergの提案するburst検出手法に基づいた手法であり、 blogや電子掲示板に対する書き込みを時間情報を含む文書列であるdocument streamとして扱い、その中でdocumentの出現間隔が短くなっている箇所(burst)に注目すべきイベントがあるとして検出する。その際、Kleinbergの提案する手法ではイベント発生と無関係にdocument数が変動するようなdocument streamをうまく扱うことができないため、手法の拡張を行った。また提案手法を用いてトピックワードの抽出実験を行い、手法の有効性を評価した。The reputation is now disseminated quickly on the WWW, because everyone can send a message to the world easily by using blog or BBS. Therefore, it is highly required to find out what information attracts people's attention and what opinion they have. We propose a method for extracting `burst of a word' which is related to a popular topic in a document stream. A document stream is defined as a sequence of documents which arrive in temporal order, and we regard blog and BBS as document streams to apply the method originally proposed by Kleinberg. However, since Kleinberg's algorithm cannot be applied to the document streams whose distribution of documents is not uniform, we extend the method to be able to apply to blog and BBS. We also describe experiments for blog and BBS with our proposed method and discuss the results.

The reputation is now disseminated quickly on the WWW, because everyone can send a message to the world easily by using blog or BBS. Therefore, it is highly required to find out what information attracts people's attention and what opinion they have. We propose a method for extracting 'burst of a word' which is related to a popular topic in a document stream. A document stream is defined as a sequence of documents which arrive in temporal order, and we regard blog and BBS as document streams to apply the method originally proposed by Kleinberg. However, since Kleinberg's algorithm cannot be applied to the document streams whose distribution of documents is not uniform, we extend the method to be able to apply to blog and BBS. We also describe experiments for blog and BBS with our proposed method and discuss the results.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes 2004(23(2003-NL-160)), 85-92, 2004-03-05

    Information Processing Society of Japan (IPSJ)

References:  8

Cited by:  19

Codes

  • NII Article ID (NAID)
    110002911698
  • NII NACSIS-CAT ID (NCID)
    AN10115061
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09196072
  • NDL Article ID
    6912067
  • NDL Source Classification
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL Call No.
    Z14-1121
  • Data Source
    CJP  CJPref  NDL  NII-ELS  IPSJ 
Page Top