書誌事項

PythonによるWebスクレイピング

Ryan Mitchell著 ; 嶋田健志、新井翔太訳

オライリー・ジャパン, 2025.6 , オーム社(発売)

第3版

タイトル別名

Web scraping with Python : data extraction from the modern web

タイトル読み

Python ニ ヨル Web スクレイピング

注記

表現種別: テキスト (ncrcontent), 機器種別: 機器不用 (ncrmedia), キャリア種別: 冊子 (ncrcarrier)

原著第3版 (O'Reilly, c2024) の翻訳

索引: p325-333

内容説明・目次

内容説明

Webスクレイピングとは、インターネットからデータを機械的に集め、必要な情報を抽出する技術のことです。2019年の第2版発刊から約5年が経過し、生成AIの台頭で情報を得る方法も大きく変わりましたが、本当に欲しい情報を正しくピンポイントで得るためには、依然としてWebスクレイピングについての知識とスキルが必要です。本書では、インターネット上の膨大な情報の中から、生成AIや検索エンジンだけでは集められない本当に必要な正しい情報を入手する方法を、基礎からていねいに解説し、データの抽出、格納、収集後のクリーニング、さらにはJavaScriptの実行、OCRを含めた自然言語処理、並列処理などの高度なトピックもカバー。プログラミングテクニックとテクノロジー全般だけでなく、法律面の解説も加え、問題に遭遇した際の対処法まで紹介します。

目次

  • 1部 スクレイパーの作成(インターネットの仕組み;Webスクレイピングの適法性と倫理;Webスクレイピングアプリケーション;スクレイパーの開発;高度なHTMLのパース ほか)
  • 2部 高度なスクレイピング(データの読み込み;汚いデータの取り扱い;自然言語の読み込みと書き込み;フォームとログインを介したクローリング;JavaScriptのスクレイピング ほか)

「BOOKデータベース」 より

詳細情報
ページトップへ