書誌事項

Pythonによるwebスクレイピング

ライアン・ミッチェル著 ; 黒川利明訳

オライリー・ジャパン , オーム社 (発売), 2016.3

タイトル別名

Web scraping with python : collecting data from the modern web

PythonによるWebスクレイピング

タイトル読み

Python ニヨル web スクレイピング

大学図書館所蔵 件 / 127

注記

技術監修: 嶋田健志

索引: p245-253

内容説明・目次

内容説明

「Webスクレイピング」とは、インターネットからデータを機械的に集め、必要な情報を抽出するプロセスのこと。検索エンジンだけでは限られた情報しか集められませんが、この技術を使えば、インターネット上の膨大な情報の中から本当に必要な情報を入手できます。小売業、金融業をはじめ多くの業界で情報収集に活用され、アカデミックでも広い分野で使われ注目されています。本書は、前半でWebスクレイパーとクローラの基礎をていねいに解説し、後半でOCRを使った情報抽出や、JavaScript実行、Seleniumによるインタフェース使用やテスト自動化、自然言語処理などの高度なトピックに加えて法律面の解説など、Webスクレイピングを実際に行うために必要なプログラミングテクニックとテクノロジー全般を紹介します。Python3.x対応。

目次

  • 第1部 スクレイパーを作る(最初のWebスクレイパー;高度なHTMLパーシング;クローリングを開始する;APIを使う;データを格納する;文章を読む)
  • 第2部 高度なスクレイピング(汚れたデータをクリーニング;自然言語の読み書き;フォームとログインでクロール;JavaScriptのスクレイピング;画像処理とテキスト認識;スクレイピングの落とし穴を避ける;Webサイトをスクレイパーでテストする;リモートでスクレイピング;Python入門;インターネット入門;Webスクレイピングの適法性と倫理)

「BOOKデータベース」 より

詳細情報

ページトップへ