リンク情報の利用によるWeb 検索性能の改善  [in Japanese] Improving Web Search Performance with Hyperlink Information  [in Japanese]

Access this Article

Search this Article

Author(s)

Abstract

本研究は,リンク情報を利用してWeb 検索性能を向上させる効果的な手法に関する研究である.まず,新しいクラスタリング・アルゴリズムを提案する.このアルゴリズムは,同じサイトに属するWeb ページを結ぶハイパーリンクだけを利用し,出次数の多いWeb ページが異なるクラスタに分散するようなクラスタリングを実現する.これによって,同じクラスタ内でテキスト情報の均一性が適度に確保されることを狙っている.なぜなら,出次数が多いWeb ページをたくさん経由するほど,Web ページのテキスト内容が発散しやすいと考えられるからである.本研究では,この仮説を,提案のクラスタリング・アルゴリズムがWeb 検索の性能向上に寄与するかどうかを確認することで,検証する.そこで,提案のアルゴリズムによって得られたクラスタを利用し,各Web ページのテキスト情報をもとに算出された文書ベクトルのエントリを変更する.文書ベクトルは,代表的な単語重み付けスキーマであるTF-IDF によって計算され,文書ベクトルのエントリの変更は,金沢らによって提案されたRS モデルに基づいて行われる.本研究では,検索性能を客観的に評価するため,NTCIR-3Web 検索タスクのために準備された文書データと検索質問を,評価実験に用いた.実験の結果によれば,ワン・クリック・ディスタンス文書モデルの下で,クラスタリングの結果を用いない場合に比べて,検索性能を表す重要な指標である平均適合率が10%以上上昇した.This paper concerns an efficient method for improving Web search performance with hyperlink information. We provide a new Web page clustering algorithm. Our algorithm only uses intra-site hyperlinks and constructs clusters so that the Web pages of large out-degree belong to different clusters. We expect our algorithm to provide clusters such that the Web pages in the same clusters are similar to each other by their textual contents. This algorithm is based on a hypothesis that the textual contents of Web pages tend to drift further after passing through more Web pages of larger out-degree. In this paper, we test this hypothesis by checking if our clustering algorithm can improve the performance of Web search. We use clustering results our algorithm gives and modify entries of document vectors. Document vectors are computed with a well-known term weighting scheme, TF-IDF. The vector entry modification is based on RS (relevance superimposition) model invented by Kanazawa et al. We conducted evaluative experime ts by using document sets and query sets prepared for NTCIR-3 Web retrieval task and realized an objective evaluation. The results show that when we use one-click-distance document model, we can improve the average precision, an important measure for Web search performance, on the order of more than 10% in comparison with the case where we use no clustering results.

This paper concerns an efficient method for improving Web search performance with hyperlink information. We provide a new Web page clustering algorithm. Our algorithm only uses intra-site hyperlinks and constructs clusters so that the Web pages of large out-degree belong to different clusters. We expect our algorithm to provide clusters such that the Web pages in the same clusters are similar to each other by their textual contents. This algorithm is based on a hypothesis that the textual contents of Web pages tend to drift further after passing through more Web pages of larger out-degree. In this paper, we test this hypothesis by checking if our clustering algorithm can improve the performance of Web search. We use clustering results our algorithm gives and modify entries of document vectors. Document vectors are computed with a well-known term weighting scheme, TF-IDF. The vector entry modification is based on RS (relevance superimposition) model invented by Kanazawa et al. We conducted evaluative experiments by using document sets and query sets prepared for NTCIR-3 Web retrieval task and realized an objective evaluation. The results show that when we use one-click-distance document model, we can improve the average precision, an important measure for Web search performance, on the order of more than 10% in comparison with the case where we use no clustering results.

Journal

  • 情報処理学会論文誌データベース(TOD)

    情報処理学会論文誌データベース(TOD) 46(SIG8(TOD26)), 48-59, 2005-06-15

    Information Processing Society of Japan (IPSJ)

References:  20

Cited by:  1

Codes

  • NII Article ID (NAID)
    110002768778
  • NII NACSIS-CAT ID (NCID)
    AA11464847
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    1882-7799
  • NDL Article ID
    7966218
  • NDL Call No.
    Z74-C192
  • Data Source
    CJP  CJPref  NDL  NII-ELS  IPSJ 
Page Top