Hadoopのディレクトリアイテム制限エラー:解決策と対策
問題の概要:
Hiveジョブを実行した際にスケジューリングシステムが失敗し、以下のようなエラーが発生しました:
java.io.IOException: java.net.ConnectException: Call From #HostName/#IP to #HostName:10020 failed on connection exception: java.net.ConnectException: 拒否された接続; 詳細は http://wiki.apache.org/hadoop/ConnectionRefused を参照してください
...
6月9日 21:13 投稿
Hadoop Archive(HAR)による小ファイルのアーカイブ管理
アーカイブコマンドの概要
Hadoop Archive(HAR)は、HDFS上での多数の小規模ファイルによって引き起こされるNameNodeのメタデータ負荷を軽減するための仕組みです。複数の小ファイルを1つの.harファイルにパッケージ化することで、名前空間のエントリ数を削減しつつ、実際のデータアクセスには影響を与えません。クライアント側からは通常のHDFSパスと同様に扱うことがで ...
5月23日 01:43 投稿
Hiveデータベース操作ガイド:テーブル管理からクエリ最適化まで
データベースメタ情報の管理
データベースにプロパティ情報を追加
create database analytics_db
with dbproperties('owner'='YamadaTaro','created_date'='20240101')
プロパティ情報の確認
describe database extended analytics_db
プロパティ情報の更新
alter database analytics_db
set dbproperties('owner'='SatoHanako')
詳細情報の表示
desc database extend ...
5月15日 01:18 投稿
Ubuntu22でのHadoop3.3.6環境構築手順
必要なソフトウェア
Ubuntu 22.04 64bit、Hadoop 3.3.6、Java 8
システムアップデート
sudo apt update
sudo apt upgrade -y
SSHサーバーのインストール
sudo apt install openssh-server -y
SSH接続確認
systemctl status ssh
pdshのインストール
sudo apt install pdsh -y
環境変数の設定
/etc/profileに以下を追加:
export PDSH_RCMD_TYPE=ssh
SSH鍵の設定
ssh-k ...
5月10日 12:30 投稿