document streamにおけるburstの発見 Identification of bursts in a document stream
-
- 藤木 稔明 FUJIKI Toshiaki
- 東京工業大学大学院 総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
-
- 南野 朋之 NANNO Tomoyuki
- 東京工業大学大学院 総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
-
- 鈴木 泰裕 [他] SUZUKI Yasuhiro
- 東京工業大学大学院 総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
-
- 奥村 学 OKUMURA Manabu
- 東京工業大学 精密工学研究所 Precision and Intelligence Laboratory, Tokyo Institute of Technology
この論文にアクセスする
この論文をさがす
著者
-
- 藤木 稔明 FUJIKI Toshiaki
- 東京工業大学大学院 総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
-
- 南野 朋之 NANNO Tomoyuki
- 東京工業大学大学院 総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
-
- 鈴木 泰裕 [他] SUZUKI Yasuhiro
- 東京工業大学大学院 総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
-
- 奥村 学 OKUMURA Manabu
- 東京工業大学 精密工学研究所 Precision and Intelligence Laboratory, Tokyo Institute of Technology
抄録
近年、Web上には様々な意見情報が存在している。そのため、Web上でいつ、どのような情報が注目されていたかを把握することは企業活動にとって重要な情報になりつつあると考えられている。本研究では特にblogと電子掲示板を対象とし、その中で注目されている話題を示すトピックワードを発見するための手法を提案する。提案手法は、Kleinbergの提案するburst検出手法に基づいた手法であり、 blogや電子掲示板に対する書き込みを時間情報を含む文書列であるdocument streamとして扱い、その中でdocumentの出現間隔が短くなっている箇所(burst)に注目すべきイベントがあるとして検出する。その際、Kleinbergの提案する手法ではイベント発生と無関係にdocument数が変動するようなdocument streamをうまく扱うことができないため、手法の拡張を行った。また提案手法を用いてトピックワードの抽出実験を行い、手法の有効性を評価した。The reputation is now disseminated quickly on the WWW, because everyone can send a message to the world easily by using blog or BBS. Therefore, it is highly required to find out what information attracts people's attention and what opinion they have. We propose a method for extracting `burst of a word' which is related to a popular topic in a document stream. A document stream is defined as a sequence of documents which arrive in temporal order, and we regard blog and BBS as document streams to apply the method originally proposed by Kleinberg. However, since Kleinberg's algorithm cannot be applied to the document streams whose distribution of documents is not uniform, we extend the method to be able to apply to blog and BBS. We also describe experiments for blog and BBS with our proposed method and discuss the results.
The reputation is now disseminated quickly on the WWW, because everyone can send a message to the world easily by using blog or BBS. Therefore, it is highly required to find out what information attracts people's attention and what opinion they have. We propose a method for extracting 'burst of a word' which is related to a popular topic in a document stream. A document stream is defined as a sequence of documents which arrive in temporal order, and we regard blog and BBS as document streams to apply the method originally proposed by Kleinberg. However, since Kleinberg's algorithm cannot be applied to the document streams whose distribution of documents is not uniform, we extend the method to be able to apply to blog and BBS. We also describe experiments for blog and BBS with our proposed method and discuss the results.
収録刊行物
-
- 情報処理学会研究報告自然言語処理(NL)
-
情報処理学会研究報告自然言語処理(NL) 2004(23(2003-NL-160)), 85-92, 2004-03-05
一般社団法人情報処理学会
参考文献: 8件中 1-8件 を表示
-
1
- Bursty and Hierarchical Structure in Streams
-
KLEINBERG Jon
Proc. the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002, 2002
被引用文献2件
-
2
- テキストによるコミュニケーションにおける影響の普及モデル
-
松村真宏
人工知能学会論文誌 17(3), 259-567, 2002
被引用文献1件
-
3
- <no title>
-
長尾真編
自然言語処理, 568-576, 1996
被引用文献1件
-
4
- On the bursty evolution of blogspace
-
KUMAR R.
Proc. of the 12th International World Wide Web Conference, 2003, 568-576, 2003
被引用文献1件
-
5
- blogの自動収集と監視
-
南野 朋之 , 鈴木 泰裕 , 藤木 稔明 , 奥村 学
情報処理学会研究報告自然言語処理(NL) 2004(23(2003-NL-160)), 129-136, 2004-03-05
情報処理学会 参考文献10件 被引用文献4件
-
6
- 新聞記事における事件特定のための単語群の抽出
-
白倉 悟子 , 梅村 恭司 , 小川 貴英
情報処理学会研究報告自然言語処理(NL) 1996(56(1996-NL-113)), 111-116, 1996-05-28
情報処理学会 参考文献11件 被引用文献6件
-
7
- Katz's K mixtureによる固有表現の異常出現の検出
-
仲村 大也 , 梅村 恭司
情報処理学会研究報告自然言語処理(NL) 2001(9(2000-NL-141)), 111-116, 2001-01-25
情報処理学会 参考文献6件 被引用文献6件
-
8
- 言語情報を利用したテキストマイニング
-
工藤 拓 , 山本 薫 , 坪井 祐太 , 松本 裕治
情報処理学会研究報告自然言語処理(NL) 2002(20(2001-NL-148)), 65-72, 2002-03-04
情報処理学会 参考文献8件 被引用文献11件
被引用文献: 19件中 1-19件 を表示
-
1
- blog の自動収集と監視
-
南野 朋之 , 鈴木 泰裕 , 藤木 稔明 , 奥村 学
人工知能学会論文誌 = Transactions of the Japanese Society for Artificial Intelligence : AI 19, 511-520, 2004-11-01
J-STAGE 参考文献14件 被引用文献12件
-
2
- 文書に対する大衆の興味の強さの推定
-
沢井 康孝 , 山本 和英
自然言語処理 = Journal of natural language processing 15(2), 101-136, 2008-04-10
参考文献9件
-
3
- 電子掲示板のリンク情報に基づく流行的話題の予測
-
片上 大輔 , 大久保 亮介 , 新田 克己
人工知能学会論文誌 = Transactions of the Japanese Society for Artificial Intelligence : AI 21, 459-472, 2006-11-01
J-STAGE 参考文献13件
-
4
- 話題抽出エージェントを用いた番組検索システムの実装(<特集>エージェント)
-
山崎 智弘 , 真鍋 俊彦 , 川村 隆浩 , Tomohiro Yamasaki , Toshihiko Manabe , Takahiro Kawamura , 東芝研究開発センター知識メディアラボラトリー , 東芝研究開発センター知識メディアラボラトリー , 東芝研究開発センター知識メディアラボラトリー , Knowledge Media Laboratory Corporate Research and Development Center Toshiba Corporation , Knowledge Media Laboratory Corporate Research and Development Center Toshiba Corporation , Knowledge Media Laboratory Corporate Research and Development Center Toshiba Corporation
コンピュータソフトウェア = Computer software 25(4), 41-51, 2008-10-28
機関リポジトリ 参考文献13件 被引用文献1件
-
5
- Twitterにおける流行語先取り発言者の検出システムの開発
-
白木原 渉 , 大石 哲也 , 長谷川 隆三 , 藤田 博 , 越村 三幸
研究報告データベースシステム(DBS) 2010-DBS-150(2), 1-8, 2010-07-28
情報処理学会 参考文献8件 被引用文献1件
-
6
- 半教師付き学習を用いた話題出現頻度推移からの注目話題の早期発見
-
高橋 宏圭 , 安村 禎明 , 上原 邦昭
電子情報通信学会技術研究報告. KBSE, 知能ソフトウェア工学 110(386), 31-36, 2011-01-17
参考文献12件
-
7
- 検索ホットワードとブログ系テキストの関係を探る
-
菊井 玄一郎 , 門内 健太 , 高橋 寛幸
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 112(196), 31-36, 2012-08-23
参考文献5件
-
8
- Web ユーザレビューにおける評価情報の時系列変化の可視化
-
打田 裕樹 , 吉川 大弘 , 古橋 武 , 平尾 英司 , 井口 浩人
知能と情報 : 日本知能情報ファジィ学会誌 : journal of Japan Society for Fuzzy Theory and Intelligent Informatics 22(3), 377-389, 2010-06-15
J-STAGE 参考文献18件 被引用文献2件
-
9
- blogの自動収集と監視
-
南野 朋之 , 鈴木 泰裕 , 藤木 稔明 , 奥村 学
情報処理学会研究報告自然言語処理(NL) 2004(23(2003-NL-160)), 129-136, 2004-03-05
情報処理学会 参考文献10件 被引用文献4件
-
10
- テキストデータを用いた問題の早期発見手法
-
宅間 大介 , 野美山 浩
情報処理学会研究報告自然言語処理(NL) 2004(73(2004-NL-162)), 19-26, 2004-07-15
情報処理学会 参考文献7件
-
11
- 順位付け文書からの影響因子マイニング
-
沢井 康孝 , 峠 泰成 , 山本 和英
情報処理学会研究報告情報学基礎(FI) 2004(93(2004-FI-076)), 169-176, 2004-09-17
情報処理学会 参考文献6件
-
12
- MineBlog:興味発見を支援するblog 記事推薦システム
-
森本 和伸 , 林 貴宏 , 尾内 理紀夫
情報処理学会論文誌 47(4), 1171-1180, 2006-04-15
情報処理学会 参考文献8件 被引用文献3件
-
13
- 確率モデルに基づく文書ストリームからのホットトピック抽出の一検討
-
木村 学 , 斉藤 和巳 , 上田 修功
電子情報通信学会技術研究報告. AI, 人工知能と知識処理 106(38), 51-56, 2006-05-11
参考文献11件
-
14
- "気づき"に着目した情報提供システム「HotWindow」の開発
-
川島 晴美 , 佐藤 吉秀 , 関口 裕一郎 , 佐々木 努 , 大久保 雅且 , 奥 雅博
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) 89(11), 2445-2457, 2006-11-01
参考文献12件 被引用文献1件
-
15
- ブログ記事からのトピック別評判情報変遷パタンの抽出手法について
-
戸田 智子 , 鎌田 基之 , 黒田 晋矢 , 福田 直樹 , 石川 博
情報処理学会研究報告データベースシステム(DBS) 2007(65(2007-DBS-143)), 201-206, 2007-07-03
-
16
- ブログ記事からのトピック別評判情報変遷パタンの抽出手法について
-
戸田 智子 , 鎌田 基之 , 黒田 晋矢 , 福田 直樹 , 石川 博
電子情報通信学会技術研究報告. DE, データ工学 107(131), 201-206, 2007-07-02
参考文献12件
-
17
- オントロジーメンテナンスのための固有名詞抽出技術の検討
-
稲葉 真純 , 飯田 貴之 , 山崎 智弘 , 布目 光生 , 溝口 祐美子 , 長野 伸一 , 川村 隆浩
電子情報通信学会技術研究報告. AI, 人工知能と知識処理 107(428), 83-86, 2008-01-21
参考文献25件
-
18
- オントロジーメンテナンスのための固有名詞抽出技術の検討
-
稲葉 真純 , 飯田 貴之 , 山崎 智弘 , 布目 光生 , 溝口 祐美子 , 長野 伸一 , 川村 隆浩
電子情報通信学会技術研究報告. KBSE, 知能ソフトウェア工学 107(429), 83-86, 2008-01-21
参考文献25件
-
19
- Blogを用いた世論調査に関する研究
-
霜田 雄一 , 成田 祐一
情報処理学会研究報告データベースシステム(DBS) 2006(59(2006-DBS-139)), 61-68, 2006-05-31
情報処理学会 参考文献18件