Hadoopのディレクトリアイテム制限エラー:解決策と対策

問題の概要: Hiveジョブを実行した際にスケジューリングシステムが失敗し、以下のようなエラーが発生しました: java.io.IOException: java.net.ConnectException: Call From #HostName/#IP to #HostName:10020 failed on connection exception: java.net.ConnectException: 拒否された接続; 詳細は http://wiki.apache.org/hadoop/ConnectionRefused を参照してください ...

6月9日 21:13 投稿

Hadoop Archive(HAR)による小ファイルのアーカイブ管理

アーカイブコマンドの概要 Hadoop Archive(HAR)は、HDFS上での多数の小規模ファイルによって引き起こされるNameNodeのメタデータ負荷を軽減するための仕組みです。複数の小ファイルを1つの.harファイルにパッケージ化することで、名前空間のエントリ数を削減しつつ、実際のデータアクセスには影響を与えません。クライアント側からは通常のHDFSパスと同様に扱うことがで ...

5月23日 01:43 投稿

Hiveデータベース操作ガイド:テーブル管理からクエリ最適化まで

データベースメタ情報の管理 データベースにプロパティ情報を追加 create database analytics_db with dbproperties('owner'='YamadaTaro','created_date'='20240101') プロパティ情報の確認 describe database extended analytics_db プロパティ情報の更新 alter database analytics_db set dbproperties('owner'='SatoHanako') 詳細情報の表示 desc database extend ...

5月15日 01:18 投稿

Ubuntu22でのHadoop3.3.6環境構築手順

必要なソフトウェア Ubuntu 22.04 64bit、Hadoop 3.3.6、Java 8 システムアップデート sudo apt update sudo apt upgrade -y SSHサーバーのインストール sudo apt install openssh-server -y SSH接続確認 systemctl status ssh pdshのインストール sudo apt install pdsh -y 環境変数の設定 /etc/profileに以下を追加: export PDSH_RCMD_TYPE=ssh SSH鍵の設定 ssh-k ...

5月10日 12:30 投稿