microsoft/DeepSpeed
github.com/microsoft/DeepSpeedv0.18.2 Patch Release
DeepSpeedのv0.18.2パッチリリースでは、いくつかの重要な変更が行われました。主な更新内容には、0.18.1リリース後のバージョン更新、torchのautocastとZeRO3におけるfp32ウェイトの重複排除、Ulyssesの追加API、可変シーケンス長に関するより直感的なAPIの提供、fused_optimizer.pyにおけるオーバーフロー処理の修正、extra_large_param_to_reduceにおけるcomm_dtypeのバグ修正、UlyssesSPのTiledMLPドキュメントの更新、0次元テンソルスライスのバグ修正、pytorch-profiler.mdドキュメントの誤字修正、READMEのリフレッシュが含まれています。これらの変更は、DeepSpeedのパフォーマンスと使いやすさを向上させることを目的としています。 • v0.18.2リリースでは、0.18.1リリース後のバージョン更新が行われた。 • torchのautocastとZeRO3におけるfp32ウェイトの重複を排除した。 • Ulyssesに追加APIが導入された。 • 可変シーケンス長に関するより直感的なAPIが提供された。 • fused_optimizer.pyにおけるオーバーフロー処理の修正が行われた。 • extra_large_param_to_reduceにおけるcomm_dtypeのバグが修正された。 • UlyssesSPのTiledMLPドキュメントが更新された。 • READMEがリフレッシュされ、誤字が修正された。
v0.18.1 Patch Release
DeepSpeedのv0.18.1パッチリリースでは、いくつかの重要な変更が行われました。ZenFlowコードがStage 3に追加され、DeepSpeedZeroOptimizerのサブクラスの初期化に**kwargsが受け入れられるようになりました。また、テンソル学習率のサポートが追加され、INT_MAXを超えるサイズのmulti_tensor_applyでの不正なメモリアクセスが修正されました。さらに、埋め込み層とlm_head層に対するMuonオプティマイザのサポートが削除され、メモリ使用量の報告に関するいくつかの改善が行われました。新たにDataStates-LLMの非同期チェックポイントエンジンのサポートも追加されました。 • ZenFlowコードがStage 3に追加された • DeepSpeedZeroOptimizerのサブクラスの初期化に**kwargsが受け入れられるようになった • テンソル学習率のサポートが追加された • multi_tensor_applyでの不正なメモリアクセスが修正された • 埋め込み層とlm_head層に対するMuonオプティマイザのサポートが削除された • メモリ使用量の報告に関する改善が行われた • DataStates-LLMの非同期チェックポイントエンジンのサポートが追加された