大規模ニューラルネットワーク訓練における完全分片データ並行(FSDP)とZeRO最適化の技術解説
分散並行学習とメモリ制約への対応
従来のデータ並行(DP)や分散データ並行(DDP)では、ミニバッチ入力の分割と勾配同期が主たる手法でした。しかし、パラメータ数が数千億規模に達した現代の大規模モデル訓練において、単一アクセラレータのメモリ容量は明確なボトルネックとなっています。完全分片データ並行(Fully Sharded Data Parallel: FSDP)は、モデルパラメー ...
6月9日 18:52 投稿