繰り返し構造を用いたWebページの構造化に関する研究  [in Japanese] Structuring Web pages based on repetition of elements  [in Japanese]

Access this Article

Search this Article

Author(s)

    • 南野 朋之 NANNO Tomoyuki
    • 東京工業大学大学院 総合理工学研究科 Interdisciplinary Gradaute School of Science and Engineering, Tokyo Institute of Technology
    • 齋藤豪 SAITO Suguru
    • 東京工業大学 精密工学研究所 Precision and Intelligence Laboratory, Tokyo Institute of Technology
    • 奥村 学 OKUMURA Manabu
    • 東京工業大学 精密工学研究所 Precision and Intelligence Laboratory, Tokyo Institute of Technology

Abstract

World Wide Webは,サイトの数においても有用な情報の量においても,急速に成長している巨大な情報源である.しかしながらWeb上の情報は,レイアウト記述言語で記述された,人が目で見て理解するための情報であるため,計算機で直接扱うには困難な点がある.そこで本研究では,このようなWeb上の情報を人間が理解する構造に近い形で計算機が扱うことが出来るようにするために,HTML文書中に含まれる要素の繰り返し構造に注目し,自動的な情報のセグメンテーション,構造化を行うことを目的とする.The World Wide Web is a vast source of information accessible to computers, but understandable only to humans, because Web pages are described in layout description languages, such as HTML. In this paper, we propose the technique of automatically segmenting and structuring Web pages based on repetition of elements.

The World Wide Web is a vast source of information accessible to computers, but understandable only to humans, because Web pages are described in layout description languages, such as HTML. In this paper, we propose the technique of automatically segmenting and structuring Web pages based on repetition of elements.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes 2003(23(2002-NL-154)), 185-192, 2003-03-06

    Information Processing Society of Japan (IPSJ)

References:  6

  • <no title>

    NANNO Tomoyuki

    Proc. of The Eleventh International World Wide Web Conference, 2002, 2002

    Cited by (1)

  • <no title>

    VIJJAPPU Lakshmi

    Proc. of the First International Workshop on Web Document Analysis (WDA2001), 2001

    Cited by (1)

  • <no title>

    COHEN William W.

    Proc. of The Eleventh International World Wide Web Conference (WWW2002), 2002

    Cited by (1)

  • <no title>

    上坂吉則

    パタ-ン認識と学習のアルゴリズム, 1990

    Cited by (22)

  • <no title>

    RAGGETT Dave

    Clean up your Web pages with HTML TIDY

    Cited by (1)

  • <no title>

    Unicode

    http://www.unicode.org/.

    Cited by (1)

Cited by:  4

Codes

  • NII Article ID (NAID)
    110002911609
  • NII NACSIS-CAT ID (NCID)
    AN10115061
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09196072
  • NDL Article ID
    6547702
  • NDL Source Classification
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL Call No.
    Z14-1121
  • Data Source
    CJP  CJPref  NDL  NII-ELS  IPSJ 
Page Top