Webディレクトリ拡張の自動化手法

書誌事項

タイトル別名
  • Web ディレクトリ カクチョウ ノ ジドウカ シュホウ
  • Automated Method for Web Directory Expansion

この論文をさがす

抄録

Webの急速な成長にともない,Webディレクトリをつねに最新の状態に保つことは困難になりつつある.本論文では,Webロボットで収集した大量のWebページ集合を使用して,Webディレクトリを自動的に拡張する手法を提案する.本手法は,テキストの類似性ではなく,ハイパーリンク構造を基にする.まず最初に,共参照解析によって,各カテゴリに関連した権威あるWebサイトを発見する.次に,発見したWebサイトに対する説明文を,それにリンクしているWebページから抽出する.検証用システムとして開発したODINディレクトリでは,Open Directoryが提供しているJapaneseカテゴリの下のすべてのカテゴリに対して拡張手法を適用し,本手法が700以上の詳細なカテゴリに対して正確に妥当かつ権威あるWebサイトを検出できることを示す.さらに,ODINディレクトリを一般公開し,不特定多数の利用者の行動を解析することで,拡張したデータが元データと同等にアクセスされていることを示す.

With the rapid growth of the Web, it is a challenging issue to maintain web directories up-to-date. In this paper, we propose a method to expand a web directory automatically by using huge amount of web pages collected by a web robot. It is not a content-based approach, but is a hyperlink-based approach. It consists of two steps. First, we find authoritative web sites relevant to each category by co-citation analysis. Second, we extract descriptions of found web sites from web pages linking to them. We developed a testbed system named “the ODIN Directory” and expanded all of the categories under the Japanese category of the Open Directory automatically. Our experiments showed that our method could find accurately relevant and authoritative web sites for each category while the Japanese category consists of more than 700 detailed categories. We also put the ODIN Directory on the public web site and confirmed that anonymous users accessed the expanded part of the web directory equally to the original part by user behavior analysis.

収録刊行物

被引用文献 (1)*注記

もっと見る

参考文献 (14)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ