Hadoop - 異端開発室 | 奇想天外なアイデアがコードで現実になる場所

Hadoop

Ambroseの使い方：データワークフローの可視化と監視プラットフォーム完全ガイド

Ambroseは、データ処理ワークフローのリアルタイム可視化と監視に特化した強力なオープンソースプラットフォームです。データエンジニア、アナリスト、開発者は、このツールを利用してデータワークフローの実行状態を簡単に追跡し、ボトルネックを特定し、パフォーマンスを最適化できます。大規模データ処理プロジェクトにおいて不可欠な監視ツールです。 Ambroseとは？ Am ...

6月22日 17:22 投稿

Hive分散クラスターの構築ガイド

Hive分散クラスターの構築方法一、Hiveコンポーネントのインストール 1. 環境準備（CentOS仮想マシンとHiveインストールパッケージ）ここではコミュニティ版を使用します：community ダウンロード後、HiveコンポーネントパッケージをCentOS仮想マシンにアップロードし、llコマンドでアップロードの成功を確認します。アップロード成功後、最も重要なステップはインスト ...

6月13日 00:08 投稿

問題の概要： Hiveジョブを実行した際にスケジューリングシステムが失敗し、以下のようなエラーが発生しました： java.io.IOException: java.net.ConnectException: Call From #HostName/#IP to #HostName:10020 failed on connection exception: java.net.ConnectException: 拒否された接続; 詳細は http://wiki.apache.org/hadoop/ConnectionRefused を参照してください ...

6月9日 21:13 投稿

Hiveテーブルの作成とデータのインポート・エクスポート方法

HiveQLはSQL-92準拠のクエリ言語を提供し、Hadoop上でデータ分析を行うための主要ツールとして利用されます。以下にテーブル操作の具体的な実装例を示します。テーブル定義の実装 USE development; DROP TABLE IF EXISTS user_profile; CREATE TABLE user_profile( user_id INT, full_name STRING, birth_year INT, skills ARRAY<STRING>, metrics MAP<STRING,FL ...

6月6日 19:52 投稿

ビッグデータによるECサイトユーザー行動分析と可視化：卒業設計プロジェット

0 はじめに本稿では、ビッグデータ技術を活用したECサイトにおけるユーザー行動分析と可視化に関する卒業設計プロジェクトを紹介します。このプロジェクトでは、淘宝（タオバオ）のユーザーデータを分析し、購買行動のパターンや傾向を明らかにします。データセット概要本プロジェクトで使用するデータセットは淘宝のユーザー行動データであり、期間は2017年11月25日 ...

5月30日 07:15 投稿

CentOS 7 環境における Hadoop 2.10 高可用性クラスタ構築

システム構成 CentOS 7 上で Hadoop 2.10 の高可用性クラスタを構築します。以下の6台のサーバを準備します: NameNode: 2台 DataNode: 4台 JournalNode: 3台 ZooKeeper: 3台 IPアドレスホスト名役割 192.168.30.141 s141 NameNode1, ZKFC, ZooKeeper 192.168.30.142 s142 DataNode, JournalNode, ZooKee ...

5月25日 07:25 投稿

Hadoop Archive（HAR）による小ファイルのアーカイブ管理

アーカイブコマンドの概要 Hadoop Archive（HAR）は、HDFS上での多数の小規模ファイルによって引き起こされるNameNodeのメタデータ負荷を軽減するための仕組みです。複数の小ファイルを1つの.harファイルにパッケージ化することで、名前空間のエントリ数を削減しつつ、実際のデータアクセスには影響を与えません。クライアント側からは通常のHDFSパスと同様に扱うことがで ...

5月23日 01:43 投稿

HadoopにおけるKerberos認証の設定手順

Hadoop環境でのKerberos利用準備 ------------ HadoopクラスタにKerberosを導入する際には以下のステップが必要です。1. サービスごとに専用のシステムユーザを設定する必要があります。2. 各サービス起動時に適切なユーザで実行する必要があります。3. 全ノードに以下のユーザとグループを作成する必要があります。ユーザ構成：ユーザ名 : グループ名デーモンhdfs : ha ...

5月17日 11:54 投稿

Ubuntu22でのHadoop3.3.6環境構築手順

必要なソフトウェア Ubuntu 22.04 64bit、Hadoop 3.3.6、Java 8 システムアップデート sudo apt update sudo apt upgrade -y SSHサーバーのインストール sudo apt install openssh-server -y SSH接続確認 systemctl status ssh pdshのインストール sudo apt install pdsh -y 環境変数の設定 /etc/profileに以下を追加： export PDSH_RCMD_TYPE=ssh SSH鍵の設定 ssh-k ...

5月10日 12:30 投稿

異端開発室