Spark MLlibによるトピックモデリング実装
本稿では、Apache Spark MLlibを用いたLDA(Latent Dirichlet Allocation)による文書トピック抽出の実践的な実装を紹介します。10件のテキストドキュメント(論文2件、ニュース記事8件)を対象に、語彙構築・前処理・モデル学習・結果解釈の一連のフローを再設計し、現代的なSpark APIとベストプラクティスに基づいて再構成しました。
依存関係の設定
MySQLデータベース ...
6月21日 19:49 投稿
sbt-dependency-graphの高度なカスタマイズ:出力形式とフィルタリング戦略
はじめに
sbt-dependency-graphは、Scalaプロジェクトにおける依存関係を可視化・分析するための強力なsbtプラグインです。本稿では、標準機能を超えたカスタム出力の生成方法や、複雑な依存ツリーを効率的に管理するための高度なフィルタリング手法について解説します。
プラグインの導入と基本設定
使用を開始するには、まずproject/plugins.sbtに以下の行を追加します ...
6月18日 23:00 投稿
Spark GraphXを用いたグラフ処理の基本的な実装例
Spark GraphXは分散環境でのグラフ計算を実現するためのフレームワークです。SNSやソーシャルネットワークではユーザー間の複雑な関係性が存在し、WeChatやQQ、Weiboなどのプラットフォームにおける友人関係やフォロー関係などは巨大なグラフ構造を形成します。このような大規模なデータは単一マシンでは処理が困難であるため、分散型グラフ処理フレームワークが必要となり ...
6月15日 16:51 投稿
Scala製Web記事抽出ツールGooseの基本的な使い方
GooseはGravity Labsが開発・公開したScalaベースのHTMLコンテンツ抽出ライブラリです。ウェブページから記事本文、タイトル、画像、公開日時などを自動で抽出でき、データ収集やテキスト分析に最適です。ここでは、Scala未経験者でもすぐに使えるよう、環境構築から実行までの流れを解説します。
開発環境の準備
まず、JDK 8以上とScala 2.10系(推奨バージョン2.10.1) ...
5月30日 12:06 投稿
Apache Zeppelin 0.11.1 インストール手順
Apache Zeppelin インストールガイド
Apache Zeppelinは、Webベースのノートブック형 데이터分析ツールです。本稿では、Zeppelin 0.11.1のインストールから初期設定までを手順を追って解説します。
1. アーカイブの展開
tar -zxvf zeppelin-0.11.1-bin-all.tgz
cd zeppelin-0.11.1-bin-all
2. サーバーアドレスとポート設定
confディレクトリ内の設定ファイルを作成し ...
5月12日 19:57 投稿
Sparkにおけるバイナリファイルの読み込みと処理
Sparkでバイナリデータを扱う方法
Apache Sparkでは、大量のファイルデータを効率的に処理するための機能が提供されています。binaryFilesメソッドは、バイナリ形式のファイルをRDDとして読み込むためのインターフェースです。この機能を利用することで、画像や実行ファイルなど、テキスト以外のデータもSpark上で直接操作することが可能になります。
基本的な利用手順
以 ...
5月11日 13:24 投稿