繰返し構造に基づいたWebページの構造化 Structuring Web Pages Based on Repetition of Elements

この論文にアクセスする

この論文をさがす

著者

    • 南野 朋之 NANNO TOMOYUKI
    • 東京工業大学大学院総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
    • 齋藤豪 SAITO SUGURU
    • 東京工業大学大学院情報理工学研究科計算工学専攻 Department of Computer Science, Graduate School of Information Science and Engineering, Tokyo Institute of Technology
    • 奥村 学 OKUMURA MANABU
    • 東京工業大学精密工学研究所 Precision and Intelligence Laboratory, Tokyo Institute of Technology

抄録

World Wide Webは,急速に成長している巨大な情報源である.しかしながらWeb上の情報は,レイアウト記述言語で記述された,人が目で見て理解するための情報であるため,計算機で直接扱う際に困難がともなう.そこで本研究では,このようなWeb上の情報を人間が理解する構造に近い形で計算機が扱うことができるようにするために,HTML文書中に含まれる要素の繰返し構造に注目し,自動的な情報のセグメンテーション,構造化を行うことを目的とする.本論文では,まず完全一致ベースの繰返し構造によってWebページを構造化し,その後,構造化できなかった部分を類似度ベースの繰返し構造によって構造化する2段階手法を提案する.The World Wide Web is a vast source of information accessible to computers, but most of its information is not easy to process by computer applications because Web pages are described in layout description languages, such as HTML. In this paper, we propose a method of automatically segmenting and structuring Web pages based on repetition of elements. Our system structuresWeb pages with a two-stage approach: first by detecting repetition structures based on "exact match" and then by detecting repetition structures based on "similarity."

The World Wide Web is a vast source of information accessible to computers, but most of its information is not easy to process by computer applications because Web pages are described in layout description languages, such as HTML. In this paper, we propose a method of automatically segmenting and structuring Web pages based on repetition of elements. Our system structures Web pages with a two-stage approach: first by detecting repetition structures based on "exact match" and then by detecting repetition structures based on "similarity."

収録刊行物

  • 情報処理学会論文誌

    情報処理学会論文誌 45(9), 2157-2167, 2004-09-15

    一般社団法人情報処理学会

参考文献:  20件中 1-20件 を表示

被引用文献:  10件中 1-10件 を表示

各種コード

  • NII論文ID(NAID)
    110002712263
  • NII書誌ID(NCID)
    AN00116647
  • 本文言語コード
    JPN
  • 資料種別
    Journal Article
  • ISSN
    1882-7764
  • NDL 記事登録ID
    7093583
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-741
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ