HTML形式の表構造の内容解析手法とその応用に関する研究 A Method for Analysis of Table Contents of HTML Format and Its Application

この論文にアクセスする

この論文をさがす

著者

    • 大谷 貴志 OTANI Takashi
    • 徳島大学大学院 工学研究科 知能情報工専攻 Department of Information Science & Intelligent Systems Faculty of Engineering, Tokushima University
    • 獅々堀正幹 SHISHIBORI Masami
    • 徳島大学大学院 工学研究科 知能情報工専攻 Department of Information Science & Intelligent Systems Faculty of Engineering, Tokushima University
    • 柘植 覚 [他] TSUGE Satoru
    • 徳島大学大学院 工学研究科 知能情報工専攻 Department of Information Science & Intelligent Systems Faculty of Engineering, Tokushima University
    • 北 研二 KITA Kenji
    • 徳島大学大学院 工学研究科 知能情報工専攻 Department of Information Science & Intelligent Systems Faculty of Engineering, Tokushima University

抄録

WWW 空間上の HTML 文書には,形式的な情報を分かり易く表示するために表が頻繁に掲載されている.これら表構造内には,各項目の上位概念となる属性名や各項目間の関係など,言語学的にも非常に有益な情報を含んでいる.しかし,これらの情報を表構造内から獲得するためには,表内においてどの項目が属性なのか,また,その属性と属性値の関係は行列どちらの方向なのかといった各項目の意味的な関係を解析する技術,すなわち,表の内容解析を行う必要がある.そこで本稿では,WWW 空間上の表構造から言語的に有用な知識を獲得するために,HTML 形式の表構造に対する内容解析を行う手法を提案する.本手法は,各項目の行列方向に存在する項目群をその項目の文脈として捉える.そして,表内の各項目に意味情報が人手で付与された正解データを学習データとして用い.学習データと解析データでの文脈の類似性に基づいて各項目の意味情報の特定を行う.実際に WWW 上に存在する 300 件の表データを用いた実験の結果,表内各項目の意味情報の特定精度(平均適合率)は 0.92 となり,本手法の有効性を確認した.更に,表内容解析結果を応用し た Web アプリケーションとして,問い合わせシステムと読み上げシステム について述べる.HTML documents in the WWW space frequently include the table structure, which has a very useful information, such as the meanings and relations of words in the table. In order to extract those information from table structures, we have to specify attribute items and relations between attributes and values in the table. This process is called the tables contents analysis. In this paper, we propose the method to analysis of table contents of HTML format. From the experiment result using 300 HTML table structures, which are collected from WWW space by hand, it was found that this method can obtain 92 percent as the average precision. Moreover, We also mention the inquiry system and the home page reading system, which are web applications adapting the acquired linguistic knowledge.

HTML documents in the WWW space frequently include the table structure, which has a very useful information, such as the meanings and relations of words in the table. In order to extract those information from table structures, we have to specify attribute items and relations between attributes and values in the table. This process is called the tables contents analysis. In this paper, we propose the method to analysis of table contents of HTML format. From the experiment result using 300 HTML table structures, which are collected from WWW space by hand, it was found that this method can obtain 92 percent as the average precision. Moreover, We also mention the inquiry system and the home page reading system, which are web applications adapting the acquired linguistic knowledge.

収録刊行物

  • 情報処理学会研究報告自然言語処理(NL)

    情報処理学会研究報告自然言語処理(NL) 2003(23(2002-NL-154)), 137-144, 2003-03-06

    一般社団法人情報処理学会

参考文献:  7件中 1-7件 を表示

被引用文献:  3件中 1-3件 を表示

各種コード

  • NII論文ID(NAID)
    110002911603
  • NII書誌ID(NCID)
    AN10115061
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • NDL 記事登録ID
    6547672
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-1121
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ