表からの量的データ属性間の関係抽出

書誌事項

タイトル別名
  • Extracting Relationship between Quantitative Data Attributes from Tables

この論文をさがす

抄録

本論文では,表中の数値を表す属性のなかから同一属性の対,および,上位下位関係にある属性の対を抽出する問題に取り組む.同一属性抽出においては,まず既存の表解釈手法を利用して,表中の各タプルが表すエンティティを特定する.異なる表中の2つの属性において,同一のエンティティを表すタプルの多くが同じ数値を含むのであれば,それらの属性は同一であると判定する.上位下位関係の抽出では,1つの表中の量的データを表す属性の集合から,上位下位関係が成立している可能性が高い属性の対を抽出する.各タプルごとに,すべての下位属性候補の数値の和と上位属性候補の数値が一致すれば,それらに上位下位関係が成立していると判断する.提案手法の有効性を示すために,Webからクロールされ数値を含むと判断された,103,706個の表を利用して実験を行った.提案手法および比較手法によって得られた同一属性の対を評価した結果,提案手法は適合率および再現率の面から優れた結果を示し,また,従来の属性名の類似性に基づく手法とはまったく異なる属性対が得られることを明らかにした.上位下位関係にある属性対の抽出についても実験を行い,比較手法よりも高い適合率と再現率を提案手法によって達成できることを示した.

In this paper, we tackle problems of finding identical attribute pairs and attribute pairs for which is-a relationship holds, from tables comprising numerical attributes. The identical attribute extraction firsts identifies entities represented by each tuple in tables by using an existing table understanding method. If most of the tuples representing the same entities contain the same value for two attributes in different tables, the two attributes are considered identical. The is-a relationship attribute extraction first extracts all the attribute pairs from tables for which is-a relationship can hold. We assume that is-a relationship holds for those attributes if the sum of the values of the sub attribute candidates equals to the value of the super attribute candidate. To demonstrate the effectiveness of our proposed approach, we conducted experiments with 103,706 tables that were crawled from the Web and were judged as including numerical values. Evaluating identical attributes pairs found by our proposed method and baseline methods, we found that the proposed method outperformed baselines in terms of precision and recall, and produced identical attribute pairs different from those found by a similarity-based method. We also evaluated is-a relationship attribute pairs and demonstrated that the precision and recall of the proposed method were higher than those of the baseline method.

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

  • CRID
    1050566774804286080
  • NII論文ID
    170000183173
  • NII書誌ID
    AA11464847
  • ISSN
    18827799
  • Web Site
    http://id.nii.ac.jp/1001/00206153/
  • 本文言語コード
    ja
  • 資料種別
    article
  • データソース種別
    • IRDB
    • CiNii Articles
    • KAKEN

問題の指摘

ページトップへ