document streamにおけるburstの発見(情報抽出・データマイニング) Identification of bursts in a document stream

この論文にアクセスする

この論文をさがす

著者

    • 藤木 稔明 FUJIKI Toshiaki
    • 東京工業大学大学院総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
    • 南野 朋之 NANNO Tomoyuki
    • 東京工業大学大学院総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
    • 奥村 学 OKUMURA Manabu
    • 東京工業大学精密工学研究所 Precision and Intelligence Laboratory, Tokyo Institute of Technology

抄録

近年、Web上には様々な意見情報が存在している。そのため、Web上でいつ、どのような情報が注目されていたかを把握することは企業活動にとって重要な情報になりつつあると考えられている。本研究では特にblogと電子掲示板を対象とし、その中で注目されている話題を示すトピックワードを発見するための手法を提案する。提案手法は、Kleinbergの提案するburst検出手法に基づいた手法であり、blogや電子掲示板に対する書き込みを時間情報を含む文書列であるdocument streamとして扱い、その中でdocumentの出現間隔が短くなっている箇所(burst)に注目すべきイベントがあるとして検出する。その際、Kleinbergの提案する手法ではイベント発生と無関係にdocument数が変動するようなdocument streamを うまく扱うことができないため、手法の拡張を行った。また提案手法を用いてトピックワードの抽出実験を行い、手法の有効性を評価した。

The reputation is now disseminated quickly on the WWW, because everyone can send a message to the world easily by using blog or BBS. Therefore, it is highly required to find out what information attracts people's attention and what opinion they have. We propose a method for extracting 'burst of a word' which is related to a popular topic in a document stream. A document stream is defined as a sequence of documents which arrive in temporal order, and we regard blog and BBS as document streams to apply the method originally proposed by Kleinberg. However, since Kleinberg's algorithm cannot be applied to the document streams whose distribution of documents is not uniform, we extend the method to be able to apply to blog and BBS. We also describe experiments for blog and BBS with our proposed method and discuss the results.

収録刊行物

  • 情報処理学会研究報告. 自然言語処理研究会報告

    情報処理学会研究報告. 自然言語処理研究会報告 2004(23), 85-92, 2004-03-04

    一般社団法人情報処理学会

参考文献:  8件中 1-8件 を表示

被引用文献:  19件中 1-19件 を表示

各種コード

  • NII論文ID(NAID)
    110002911698
  • NII書誌ID(NCID)
    AN10115061
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • NDL 記事登録ID
    6912067
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-1121
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ