PythonによるWebスクレイピング入門

基本概念 Webスクレイピングとは、プログラムを用いてユーザーの操作を模倣し、大量のHTTPリクエストを自動で送信してデータを取得する技術である。 スクレイピングの種類 汎用クローラ(General Crawler) 検索エンジン(Google、Baiduなど)が使用するシステムの一部であり、インターネット上のウェブページを可能な限りダウンロードし、ローカルにミラーリングする。そ ...

6月5日 21:27 投稿

Python製CLIツールによる気象・グルメデータ収集のスクレイピング実装

データ収集の前提と対象ドメインの選定 ウェブ上の公開情報を自動収集する際、最初の工程は抽出が容易な対象URLの特定です。単純なHTTPリクエストを送信し、レスポンスとして返されるHTML構造がブラウザでのレンダリング結果と一致しているか確認することで、初期段階のアクセス制限やクライアントサイドレンダリングの有無を判定できます。学習目的では、複雑な認証フロー ...

5月20日 19:29 投稿