webページ中のテキストと表からの重要個所抽出 Important part extraction from the text and table in a Web page

この論文にアクセスする

この論文をさがす

著者

抄録

本稿では、情報の信頼度を考慮して低品質なマルチドキュメントであるwebページ中のテキストと表から重要個所を抽出する手法について述べる。テキストや表に付けられた見出しをテキストや表の内容から抽出した重要個所との類似度で内容を評価してから抽出する重要個所を決めることにより、単純に表示上強調された個所を抽出したり、テキストの表層情報から重要個所を抽出する場合に比べ、より信頼度の高い重要個所が抽出できると考えられる。tf*idf、χ2値を用いて重要個所を抽出した場合と本手法で用いた上位概念の出現頻度を用いて重要個所を抽出した場合の精度の比較から本手法の有効性を検証する。This paper presents a method of extracting an important part from the text and table in a web page, which is a low quality multi-document.It considers information reliability and decides the important part by evaluating the title attached to the text or table with similarity of title and important parts extracted from text or table. We think that this method realizes important part extraction with high reliability, even from a low quality web page. Finally, we compare the result which extracted the important part using the frequency of dominant conception, tf*idf, and χ2 value, and test the effectiveness of this method.

This paper presents a method of extracting an important part from the text and table in a web page, which is a low quality multi-document. It considers information reliability and decides the important part by evaluating the title attached to the text or table with similarity of title and important parts extracted from text or table. We think that this method realizes important part extraction with high reliability, even from a low quality web page. Finally, we compare the result which extracted the important part using the frequency of dominant conception, tf^*idf, and χ^2 value, and test the effectiveness of this method.

収録刊行物

  • 情報処理学会研究報告自然言語処理(NL)

    情報処理学会研究報告自然言語処理(NL) 2003(4(2002-NL-153)), 65-72, 2003-01-20

    一般社団法人情報処理学会

参考文献:  20件中 1-20件 を表示

被引用文献:  2件中 1-2件 を表示

各種コード

  • NII論文ID(NAID)
    110002911619
  • NII書誌ID(NCID)
    AN10115061
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • NDL 記事登録ID
    6462631
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-1121
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ