書誌事項
- タイトル別名
-
- 100億規模のWebページ収集・分析への挑戦
- 100オク キボ ノ Web ページ シュウシュウ ブンセキ エノ チョウセン
- Development of Advanced Development of Fundamental Software through Tight Collaboration of Academia and Industry:Challenges to Gathering and Analyzing over 10 Billion of Web Pages
この論文をさがす
抄録
Webページ数は,2006年11月時点で537億ページと推測されている1).我々は,2004年1月--2006年7月の間に,全世界の5 548万台のWebサーバからテキストのみを対象に収集を行い,ユニークなWebページ数として約144.5億ページを収集した.また,収集済Webページに対して,トップレベルドメイン分布,記述言語分布,Webサーバの地理的位置の解析,バックリンク解析やPageRank計算を進め,Web空間の現状分析を行った.さらに,Webページの解析がビジネスに利用可能であることを示すために,企業のWebサイト上の活動を可視化するe企業調査プロトタイプを構築し,企業の特徴,戦略,評判などの抽出を行った.
収録刊行物
-
- 情報処理
-
情報処理 49 (11), 1277-1283, 2008-11-15
東京 : 情報処理学会 ; 1960-
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1050282812872149504
-
- NII論文ID
- 110006990098
-
- NII書誌ID
- AN00116625
-
- ISSN
- 04478053
-
- NDL書誌ID
- 9718504
-
- 本文言語コード
- ja
-
- 資料種別
- departmental bulletin paper
-
- データソース種別
-
- IRDB
- NDL
- CiNii Articles