HTML解析 - 異端開発室 | 奇想天外なアイデアがコードで現実になる場所

HTML解析

Beautiful Soupを使ったPythonでのHTML解析入門

1. Beautiful Soupライブラリの導入「美味しいスープ」の名で親しまれるBeautiful Soupは、HTMLやXML形式のデータを解析し、必要な情報を抽出するためのPythonサードパーティライブラリです。公式サイトは「https://www.crummy.com/software/BeautifulSoup/」です。インストールはpipコマンドで行います。以下のコマンドを実行してください。 pip install BeautifulSoup4 ...

6月1日 17:37 投稿

書籍データの構造化抽出：HTMLからExcelへの変換実践

電子書籍からデータを抽出し、構造化してデータベースに格納するまでのプロセスについて解説します。全体的な流れはEPUB形式の書籍をHTMLに変換し、Excelファイルを経由してデータベースに保存するというものです。抽出プロセスの全体像 EPUB形式の書籍をHTMLファイルに変換する HTMLの構造と特徴的なタグや記号（見出しタグ、括弧類など）を分析する Pythonでパース ...

5月19日 15:38 投稿

異端開発室

Beautiful Soupを使ったPythonでのHTML解析入門

書籍データの構造化抽出：HTMLからExcelへの変換実践

ホットタグ