表構造の一般化に基づくオントロジの獲得 Ontology Extraction Based on Generalization of Table Structure

この論文にアクセスする

この論文をさがす

著者

    • 石田 亨 ISHIDA TORU
    • 京都大学大学院情報学研究科社会情報学専攻 Department of Social Informatics, Kyoto University

抄録

表からの情報抽出に関する従来の研究は,表の認知モデルなど表構造の先見的知識や,対象ドメインの語彙の知識ベースを用いるものであった.しかし幅広くWeb から集められた表を対象とする場合には,同じ表構造に対して表ごとに違う解釈をしたり,様々なドメインの表を処理したりする必要がある.本研究では,表構造が表すデータ間の関係の解釈で与え,形式化された表構造とその構造が表すデータの関係との対応を得ることで,表形式データからオントロジを構築する手法を提案する.人手により解釈を与えられた構造を,セルの隣接関係や繰返し構造に注目して自動的に一般化することにより,表中のデータ間の関係を得る.Web 上の価格表・タイムテーブル・統計データなどの表に対し提案手法を適用した結果,少ないコストで表中のデータの関係を記述する多くのRDF ステートメントが得られた.Previous works on information extraction from tables make use of lexical knowledge bases of tables or prior knowledge such as a cognition model of tables. However, we often need to interpret table structures in each table differently and to treat lexicons in various domains for processing a broad range of tables on the Web. The method proposed in this paper extracts an ontology from a table by using relations represented by structures. Once the interpretations of table structures are given by humans, the table structures are automatically generalized to extract relations from the whole table. We defined a formal representation of generalized table structure based on the adjacency of cells and iterative structures. Our experiments showed that the method extracted class-hierarchies, property-value pairs and other various relations from the tables containing price lists, timetables and statistics on the Web.

Previous works on information extraction from tables make use of lexical knowledge bases of tables or prior knowledge such as a cognition model of tables. However, we often need to interpret table structures in each table differently and to treat lexicons in various domains for processing a broad range of tables on the Web. The method proposed in this paper extracts an ontology from a table by using relations represented by structures. Once the interpretations of table structures are given by humans, the table structures are automatically generalized to extract relations from the whole table. We defined a formal representation of generalized table structure based on the adjacency of cells and iterative structures. Our experiments showed that the method extracted class-hierarchies, property-value pairs and other various relations from the tables containing price lists, timetables and statistics on the Web.

収録刊行物

  • 情報処理学会論文誌

    情報処理学会論文誌 47(5), 1530-1537, 2006-05-15

    一般社団法人情報処理学会

参考文献:  10件中 1-10件 を表示

被引用文献:  1件中 1-1件 を表示

各種コード

  • NII論文ID(NAID)
    110004720715
  • NII書誌ID(NCID)
    AN00116647
  • 本文言語コード
    JPN
  • 資料種別
    Journal Article
  • ISSN
    1882-7764
  • NDL 記事登録ID
    7957342
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-741
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ