HTML文書集合からの評価文の自動収集 Acquiring Polar Sentences from HTML Documents

この論文にアクセスする

この論文をさがす

著者

抄録

本論文では大規模なHTMI」文書集合から評価文を自動収集する手法を提案する.基本的なアイデアは「定型文」「箇条書き」「表」といった記述形式を利用するというものである.本手法に必要なのは少数の規則だけであるため,人手をほとんどかけずに評価文を収集することが可能である.また,任意のHTML文書に適用できる手法であるため,様々なドメインの評価文を収集できることが期待される.実験では,提案手法を約10億件のHTML文書に適用したところ,約65万の評価文を獲得することができた.This paper represents a method of acquiring polar sentences from HTML documents. The basic idea is to exploit three lexico-syntactic patterns and two layout structures of HTML documents. The method requires only a small amount of hand-crafted rules and can be implemented in low cost. In our experiment, the method was applied to one billion documents and 650 thouthands polar sentences were aquired.

収録刊行物

  • 自然言語処理 = Journal of natural language processing  

    自然言語処理 = Journal of natural language processing 15(3), 77-90, 2008-07-10 

    言語処理学会

参考文献:  30件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

各種コード

  • NII論文ID(NAID)
    10021992003
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    9625769
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  NDL  IR 
ページトップへ