Scala製Web記事抽出ツールGooseの基本的な使い方
GooseはGravity Labsが開発・公開したScalaベースのHTMLコンテンツ抽出ライブラリです。ウェブページから記事本文、タイトル、画像、公開日時などを自動で抽出でき、データ収集やテキスト分析に最適です。ここでは、Scala未経験者でもすぐに使えるよう、環境構築から実行までの流れを解説します。
開発環境の準備
まず、JDK 8以上とScala 2.10系(推奨バージョン2.10.1) ...
5月30日 12:06 投稿