Max Flowアルゴリズムを用いたWeb ページのクラスタリング方法とその評価

書誌事項

タイトル別名
  • Max Flow アルゴリズム オ モチイタ Web ページ ノ クラスタリング ホウホウ ト ソノ ヒョウカ
  • Clustering Web Pages Based on Maximum Flow Algorithm

この論文をさがす

抄録

Web 上の情報を探すために使われる検索エンジンの多くはユーザに検索結果をスコア順のリストとして返す.したがって,リストが長い場合,求める情報を探すのはきわめて難しい.そこで,検索結果をリストでなくカテゴリ表示するための新しいクラスタリング方法を提案する.クラスタリングする方法としては,ページ内の文章を解析する方法でなくWeb ページの持つリンク情報を基に行う.リンク情報の解析には,より緻密に結びついたリンク構造にあるページ集合を見つけるのに有効な最大流アルゴリズムを用いる.提案方法を定量的に評価するために,適合の正解があるNTCIR のデータを使い実験を行い良好な結果を得た.

While search engines are indispensable for searching on the Web, users have to check a long ordered list to locate necessary information. It is often tedious and less efficient. In this paper, we propose a new link-based clustering approach to categorizing search results returned from Web search engine. The maximum flow algorithm which is effective to find the page sets connected tightly by hyperlinks is used for the analysis of link information. In order to evaluate method perfoemance quantitatively, we conducted experiments using the data of NTCIR and had good results.

収録刊行物

被引用文献 (4)*注記

もっと見る

参考文献 (15)*注記

もっと見る

関連プロジェクト

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ