DeepSpeedのv0.18.9パッチリリースでは、いくつかの重要な変更が行われました。まず、$TRITON_HOMEを尊重する機能が追加され、AutoTPのためのユニバーサルチェックポイントが導入されました。また、ROCm GPUアーキテクチャ検出において不要なshell=Trueを削除し、$DS_IGNORE_CUDA_DETECTIONが設定されている場合にはローカルGPUを検出しないように修正されました。さらに、HuggingFace tp_planのサポートが追加され、Triton自動調整キャッシュにおける存在しないパスの処理が改善されました。PyTorch 2.4未満のtorch.amp.custom_fwdの後方互換性が修正され、ZeRO Stage 3のMuon Optimizerサポートが拡張されました。これらの変更により、DeepSpeedのパフォーマンスと互換性が向上しています。 • $TRITON_HOMEを尊重する機能の追加 • AutoTPのためのユニバーサルチェックポイントの導入 • ROCm GPUアーキテクチャ検出の修正 • HuggingFace tp_planのサポート追加 • Triton自動調整キャッシュの改善 • PyTorch 2.4未満の後方互換性の修正 • ZeRO Stage 3のMuon Optimizerサポートの拡張