Hadoop Archive(HAR)による小ファイルのアーカイブ管理
アーカイブコマンドの概要
Hadoop Archive(HAR)は、HDFS上での多数の小規模ファイルによって引き起こされるNameNodeのメタデータ負荷を軽減するための仕組みです。複数の小ファイルを1つの.harファイルにパッケージ化することで、名前空間のエントリ数を削減しつつ、実際のデータアクセスには影響を与えません。クライアント側からは通常のHDFSパスと同様に扱うことがで ...
5月23日 10:43 投稿