PythonによるWebスクレイピング入門
1. 前提条件
学習者はPythonの基礎知識(数値型・文字列型・分岐・ループ・関数・リスト型・辞書型・ファイル操作・外部ライブラリ利用)を習得している必要があります。
2. Webスクレイピング基本プロセス
HTTPリクエスト送信
requestsライブラリでターゲットサイトにリクエストを送信します。リクエストにはヘッダーとボディが含まれますが、JavaScript/CSS実行機能は ...
6月12日 00:41 投稿
Beautiful Soupを使ったPythonでのHTML解析入門
1. Beautiful Soupライブラリの導入
「美味しいスープ」の名で親しまれるBeautiful Soupは、HTMLやXML形式のデータを解析し、必要な情報を抽出するためのPythonサードパーティライブラリです。公式サイトは「https://www.crummy.com/software/BeautifulSoup/」です。
インストールはpipコマンドで行います。以下のコマンドを実行してください。
pip install BeautifulSoup4 ...
6月1日 17:37 投稿
Pythonによるブログアーカイブの自動化 — ウェブスクレイピングからExcel・Word出力まで
ソフトウェアエンジニアリングの履修課題として、ウェブ上からブログ記事を収集し、書式化されたドキュメントとして保存する処理を実装する機会は珍しくない。本稿では、Pythonを用いたスクレイピング技術に加え、ExcelおよびWord文書の自動生成方法について解説する。
開発環境の構築
本実装で使用する主要なライブラリは以下の通りである。requestsはHTTPリクエストの ...
5月21日 17:33 投稿
Python製CLIツールによる気象・グルメデータ収集のスクレイピング実装
データ収集の前提と対象ドメインの選定
ウェブ上の公開情報を自動収集する際、最初の工程は抽出が容易な対象URLの特定です。単純なHTTPリクエストを送信し、レスポンスとして返されるHTML構造がブラウザでのレンダリング結果と一致しているか確認することで、初期段階のアクセス制限やクライアントサイドレンダリングの有無を判定できます。学習目的では、複雑な認証フロー ...
5月20日 19:29 投稿
書籍データの構造化抽出:HTMLからExcelへの変換実践
電子書籍からデータを抽出し、構造化してデータベースに格納するまでのプロセスについて解説します。全体的な流れはEPUB形式の書籍をHTMLに変換し、Excelファイルを経由してデータベースに保存するというものです。
抽出プロセスの全体像
EPUB形式の書籍をHTMLファイルに変換する
HTMLの構造と特徴的なタグや記号(見出しタグ、括弧類など)を分析する
Pythonでパース ...
5月19日 15:38 投稿