学と産の連携による基盤ソフトウェアの先進的開発:8.100億規模のWebページ収集・分析への挑戦

書誌事項

タイトル別名
  • 100億規模のWebページ収集・分析への挑戦
  • 100オク キボ ノ Web ページ シュウシュウ ブンセキ エノ チョウセン
  • Development of Advanced Development of Fundamental Software through Tight Collaboration of Academia and Industry:Challenges to Gathering and Analyzing over 10 Billion of Web Pages

この論文をさがす

抄録

Webページ数は,2006年11月時点で537億ページと推測されている1).我々は,2004年1月--2006年7月の間に,全世界の5 548万台のWebサーバからテキストのみを対象に収集を行い,ユニークなWebページ数として約144.5億ページを収集した.また,収集済Webページに対して,トップレベルドメイン分布,記述言語分布,Webサーバの地理的位置の解析,バックリンク解析やPageRank計算を進め,Web空間の現状分析を行った.さらに,Webページの解析がビジネスに利用可能であることを示すために,企業のWebサイト上の活動を可視化するe企業調査プロトタイプを構築し,企業の特徴,戦略,評判などの抽出を行った.

収録刊行物

  • 情報処理

    情報処理 49 (11), 1277-1283, 2008-11-15

    東京 : 情報処理学会 ; 1960-

被引用文献 (2)*注記

もっと見る

参考文献 (5)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ