Webページからのタイプ別情報抽出・分類方式 Information Extraction and Classification Method for Web Pages based on Document Type

この論文にアクセスする

この論文をさがす

著者

抄録

ユーザの目的に応じた情報検索・情報提供を実現するために,ページタイプ分類を利用した情報抽出・分類方式を提案し,試作システムで精度を評価した.本方式では,ページタイプ分類を使用することで,それぞれのページタイプに適した抽出・分類処理を行える.そのため,多くの種類の文書が混在するWebページに対しても必要な情報だけを高い精度で抽出することができる.また,分類結果を表や図を用いてユーザに提示することで特定の目的に応じた情報を提供するサービスを実現できる.試作システムによる求人情報とイベント情報の抽出精度の評価では,記述が比較的一定している勤務地や開催日時などの情報で適合率90%以上を達成した.記述の自由度が高い,求人の応募資格やイベント名では65?75%にとどまっている.検索誤りの主な原因は,情報を判別するキーワードのミスマッチと,表や箇条書きの前後からの抽出の誤りであった.抽出もれの原因としては,表や箇条書きのパターンや情報判別用のキーワードのの不足が主なものであった.This paper describes a novel information extraction method which realizes task oriented information retrieval. This method uses page-type classification method which judges type of Web pages. Introducing the page-type concept, extraction systems can select appropriate algorithm or rules for the target page-type. Hence, extraction performances will be increased. This paper also demonstrates accuracy of extraction. Extraction precisions of work place at help-wanted advertisement and date at event information are 90% and over, since these information are relatively set. Precisions of requirement at help-wanted advertisement and event name at event information are unfortunately between 65% and 75%, because there are many description styles of these information. The causes of the extraction errors is mismatches of keywords and extracting errors from table captions. The extraction omissions are caused by lack of pattern, namely, table, article, keyword and so on.

This paper describes a novel information extraction method which realizes task oriented information retrieval. This method uses page-type classification method which judges type of Web pages. Introducing the page-type concept, extraction systems can select appropriate algorithm or rules for the target page-type. Hence, extraction performances will be increased. This paper also demonstrates accuracy of extraction. Extraction precisions of work place at help-wanted advertisement and date at event information are 90% and over, since these information are relatively set. Precisions of requirement at help-wanted advertisement and event name at event information are unfortunately between 65% and 75%, because there are many description styles of these information. The causes of the extraction errors is mismatches of keywords and extracting errors from table captions. The extraction omissions are caused by lack of pattern, namely, table, article, keyword and so on.

収録刊行物

  • 情報処理学会研究報告情報学基礎(FI)

    情報処理学会研究報告情報学基礎(FI) 2000(29(1999-FI-057)), 143-150, 2000-03-21

    一般社団法人情報処理学会

参考文献:  4件中 1-4件 を表示

被引用文献:  6件中 1-6件 を表示

各種コード

  • NII論文ID(NAID)
    110002934270
  • NII書誌ID(NCID)
    AN10114171
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • NDL 記事登録ID
    5340455
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-1121
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ