Webの表を対象とした属性の自動識別 Automatic recognition of attributes from tables in web pages

この論文にアクセスする

この論文をさがす

著者

抄録

近年のインターネットの普及により,Web上には大量の情報が存在している.この情報を利用するための技術として,情報抽出が期待されている.この技術では,抽出する情報の属性をあらかじめ決めておかなければいけない.しかし,抽出しようとする情報について知識が乏しい人は,どの属性を指定すればよいか分からないという問題がある.そこで,本稿では,属性を自動で決定する手法を提案する.対象は,すでに属性と属性値から構成されている表とする.表には,属性が1行目または1列目に偏って存在するという共通な性質がある.本手法の特徴は,(1)偏りの推定へのx2検定の利札(2)属性を表す行・列という構造的制約を用いた属性の発見,(3)再検索を用いた属性の検証の3点からなる.本稿では,Webから得た13 390個の表(385個の属性を含む)を対象に表の構造解析の実験を行い,F値79%を得た.Information extraction enables us intelligent access to a huge amount of information stored as web pages. This technique requires the user to determine attributes of information the user needs. It is, however, not easy for the user who only has incomplete knowledge about the information to specify its exact attributes. In this report we propose a method of automated extraction of attributes in response to a topic specified by the user. As the information source, we focus on tables on the Web that contain attributes of the topic. The method is based on the fact that attributes are biased to be in the arst column and row of the tables. The characteristic points of the method are as follows: (1) the bias is estimated using the chi-square test, (2) extraction of attributes using structural constraints on rows and columns including attributes, (3) retrieval-based validation of extracted attributes. From the experimental results on 13,390 tables including 385 attributes, the method extracted the attributes with the F-measure of 79.

Information extraction enables us intelligent access to a huge amount of information stored as Web pages. This technique requires the user to determine attributes of information the user needs. It is, however, not easy for the user who only has incomplete knowledge about the information to specify its exact attributes. In this report we propose a method of automated extraction of attributes in response to a topic specified by the user. As the information source, we focus on tables on the Web that contain attributes of the topic. The method is based on the fact that attributes are biased to be in the first column and row of the tables. The characteristic points of the method are as follows : (1) the bias is estimated using the chi-square test, (2) extraction of attributes using structural constraints on rows and columns including attributes, (3) retrieval-based validation of extracted attributes. From the experimental results on 13,390 tables including 385 attributes, the method extracted the attributes with the F-measure of 79

収録刊行物

  • 情報処理学会研究報告自然言語処理(NL)

    情報処理学会研究報告自然言語処理(NL) 2006(1(2006-NL-171)), 43-48, 2006-01-12

    一般社団法人情報処理学会

参考文献:  7件中 1-7件 を表示

被引用文献:  1件中 1-1件 を表示

キーワード

各種コード

  • NII論文ID(NAID)
    110004075910
  • NII書誌ID(NCID)
    AN10115061
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • NDL 記事登録ID
    7808863
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-1121
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ