ZeRO - 異端開発室 | 奇想天外なアイデアがコードで現実になる場所

ZeRO

大規模ニューラルネットワーク訓練における完全分片データ並行（FSDP）とZeRO最適化の技術解説

分散並行学習とメモリ制約への対応従来のデータ並行（DP）や分散データ並行（DDP）では、ミニバッチ入力の分割と勾配同期が主たる手法でした。しかし、パラメータ数が数千億規模に達した現代の大規模モデル訓練において、単一アクセラレータのメモリ容量は明確なボトルネックとなっています。完全分片データ並行（Fully Sharded Data Parallel: FSDP）は、モデルパラメー ...

6月9日 18:52 投稿

異端開発室

大規模ニューラルネットワーク訓練における完全分片データ並行（FSDP）とZeRO最適化の技術解説

ホットタグ