深層ウェブの実態とその要因 : 機関リポジトリに登録された文献を用いた調査 The Extent of the Deep Web in Japanese Institutional Repositories

この論文にアクセスする

この論文をさがす

著者

抄録

ウェブの規模が増大するにつれ,検索エンジンからアクセスできない状態,すなわち深層ウェブも増大していることへの関心が高まっている。マッカウンら(2006)とハーゲドーンとサンテッリ(2008)は,深層ウェブの規模をOAI-PMHを用いて収集した機関リポジトリに収録された文献のメタデータを用いて計測した。本研究では,2009年9月に,先行研究の手法を応用し,日本の機関リポジトリから収集した全文PDFファイルのURLを用いて,より大規模に深層ウェブの比率を計測した。その結果,Google, Yahoo!, Bingの3つの検索エンジンから検索できるウェブは72.0%に過ぎず,28.0%が深層ウェブとなっていることが分かった。1つの検索エンジンでは,最高でもGoogleの53.2%であった。また,PDFファイルとURLの特徴の調査から,動的なURLや長いURLが深層ウェブとなる要因であることが分かった。

The more the size of Web increases, the more serious the problem of the deep Web (the Web not accessible to search engines) becomes. McCown et al. (2006) and Hagedorn & Santelli (2008) surveyed extent of deep Web using metadata contained in institutional repositories. In this research, applying the method used in that previous work, we measured the extent of the deep Web on a larger scale using PDF file URLs contained in institutional repositories in Japan in September 2009. The results show that the coverage rate of major search engines (Google, Yahoo! and Bing) is 72%, leaving 28% as the maximum extent of the deep Web. And examination of the characteristics of the files revealed that dynamic URLs and longer URLs are associated with decreased coverage rates for search engines.

収録刊行物

  • 日本図書館情報学会誌

    日本図書館情報学会誌 58(2), 97-109, 2012

    日本図書館情報学会

各種コード

  • NII論文ID(NAID)
    110009479379
  • NII書誌ID(NCID)
    AA11333306
  • 本文言語コード
    JPN
  • ISSN
    1344-8668
  • NDL 記事登録ID
    023789682
  • NDL 請求記号
    Z21-133
  • データ提供元
    NDL  NII-ELS  J-STAGE 
ページトップへ