KubernetesでDeepSeekを動かす際のDevice-Plugin設定漏れが招く4つのGPUリソース分離障害とその対策
NVIDIAのGPU device-pluginは、KubernetesでGPUスケジューリングを可能にする基盤コンポーネントです。しかし、このプラグインが欠落していたり、設定が誤っていたりしてもPodの起動自体は失敗しません。その代わり、静かなリソース競合が発生し、大規模言語モデル(DeepSeek-R1など)の推論サービスで、高負荷時のOOM(メモリ不足)、メモリリーク、CUDA_ERROR_INVALID_HA ...
5月21日 04:39 投稿