HTMLからのテキストの自動切り出しアルゴリズムと実装

村上, 義継, 坂本, 比呂志, 有村, 博紀, 有川, 節夫

書誌事項

タイトル別名

HTML カラノテキストノジドウキリダシアルゴリズムトジッソウ
Extracting Text Data from HTML Documents

この論文をさがす

抄録

World Wide Web で収集したHTML テキストから部分的にデータを取り出すプログラムをHTMLWrapper と呼ぶ．本研究ではHTML Wrapper のための新しいデータモデルを提案し，与えられたHTML から所望のテキストデータを切り出すためのHTML Wrapper を自動生成する機械学習アルゴリズムを構築する．さらにこのアルゴリズムをJava によって実装し，このアルゴリズムの有効性を検証する．

This paper introduces the new model of the HTML Wrapper for the information extraction from HTML documents and presents the learning algorithm for the HTML Wrappers in the framework of learning by exmaples. The expressiveness of this model is shown by experimental results.

収録刊行物

情報処理学会論文誌数理モデル化と応用（TOM）

情報処理学会論文誌数理モデル化と応用（TOM） 42 (SIG14(TOM5)), 39-49, 2001-12-15

東京 : 情報処理学会

詳細情報詳細情報について

CRID: 1050282812868508544

NII論文ID: 10012520218; 110002936511; 110002726143

NII書誌ID: AA11464803

ISSN: 18827780; 09196072; 03875806

NDL書誌ID: 5747753; 6022913

Web Site: http://id.nii.ac.jp/1001/00017308/; https://ndlsearch.ndl.go.jp/books/R000000004-I5747753; https://ndlsearch.ndl.go.jp/books/R000000004-I6022913

本文言語コード: ja

資料種別: article

データソース種別

IRDB
NDL
CiNii Articles

HTMLからのテキストの自動切り出しアルゴリズムと実装

書誌事項

この論文をさがす

抄録

収録刊行物

被引用文献 (3)*注記

参考文献 (17)*注記

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

HTMLからのテキストの自動切り出しアルゴリズムと実装

書誌事項

この論文をさがす

抄録

収録刊行物

被引用文献 (3)*注記

参考文献 (17)*注記

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について