microsoft/DeepSpeed
github.com/microsoft/DeepSpeedv0.17.1 Patch Release
DeepSpeedのv0.17.1パッチリリースに関する記事です。このリリースでは、いくつかの重要な更新が行われました。具体的には、v0.17.0リリース後のversion.txtの更新、Ulysses Plusドキュメントの改善、config_utils.pyの更新、pytestのバージョンを8.3.5に固定する修正、symint入力に関する問題の修正、fp16オプティマイザのタイマー修正、DeepNVMeの更新、topkgating関数の修正、LoRAのarxiv参照の修正、ZeROのオーバーフロー処理の改善、ドキュメントのレンダリングの修正などが含まれています。また、新しい貢献者も数名参加しています。 • v0.17.0リリース後のversion.txtの更新 • Ulysses Plusドキュメントの改善 • config_utils.pyの更新 • pytestのバージョンを8.3.5に固定する修正 • symint入力に関する問題の修正 • fp16オプティマイザのタイマー修正 • DeepNVMeの更新 • topkgating関数の修正 • LoRAのarxiv参照の修正 • ZeROのオーバーフロー処理の改善 • ドキュメントのレンダリングの修正 • 新しい貢献者の参加
DeepSpeed v0.17.0
DeepSpeed v0.17.0がリリースされ、いくつかの重要な修正と更新が行われました。主な変更点には、AutoTPのパラメータ収集の修正、ZeRO-OffloadのGPUメモリ使用量の改善、CPUオフロードのための勾配ノルム計算の更新が含まれています。また、CI環境でのbf16の優先設定や、テスト実行時にローカルのDeepSpeedリポジトリを自動的に追加する機能も実装されました。新しいコントリビューターも数名参加し、全体的なパフォーマンスと安定性が向上しています。 • DeepSpeed v0.17.0のリリースに伴う修正と更新が行われた。 • AutoTPのパラメータ収集に関する問題が修正された。 • ZeRO-OffloadのGPUメモリ使用量が改善された。 • CPUオフロードのための勾配ノルム計算が更新された。 • CI環境でbf16を優先する設定が追加された。 • テスト実行時にローカルのDeepSpeedリポジトリを自動的に追加する機能が実装された。 • 新しいコントリビューターが参加し、プロジェクトが活性化している。
v0.16.9 Patch Release
DeepSpeedのv0.16.9パッチリリースでは、いくつかの重要な変更が行われました。主な変更点には、0.16.8リリース後のパッチバージョンの更新、冗長なrequires grad falseの削除によるグラフの破損回避、AutoTP用のqwen3メタローディングの追加、コンポーネント全体でのシステム実行可能検出の近代化、NVMeオフロード用のZeROセット/取得APIの有効化、AutoTP用のqwen3moeメタローディングの追加、ライセンスチェックの一時無効化、zero-3でweightがNoneのときのextra_repr_strの修正、DeepSpeed側でのXCCLサポートが含まれています。新しい貢献者も加わり、全体で35のコミットが行われました。 • v0.16.9パッチリリースの主要な変更点が含まれている • 冗長なrequires grad falseの削除によりグラフの破損を回避 • AutoTP用のqwen3メタローディングが追加された • システム実行可能検出が近代化された • NVMeオフロード用のZeROセット/取得APIが有効化された • ライセンスチェックが一時的に無効化された • XCCLのサポートがDeepSpeed側で追加された
v0.16.8 Patch Release
DeepSpeedのv0.16.8パッチリリースでは、いくつかの重要な変更が行われました。主な更新内容には、CPUアクセラレーターのfp16データ型サポートの追加、CPU用のPyTorchバージョンを2.7に更新、README.mdの更新、nv_bloat162に関するコンパイルエラーの修正、Makefileの追加によるメンテナンスの容易化、fp8 gemmの修正が含まれています。また、XPUテストに関する問題の修正や、AIOテストの一時的なスキップも行われました。新しい貢献者も数名参加しており、コミュニティの活性化が見られます。 • CPUアクセラレーターのfp16データ型サポートを追加 • CPU用のPyTorchバージョンを2.7に更新 • README.mdを更新 • nv_bloat162に関するコンパイルエラーを修正 • Makefileを追加してメンテナンスを容易にした • fp8 gemmの修正を行った • XPUテストの問題を修正し、AIOテストを一時的にスキップした • 新しい貢献者が参加した
v0.16.7 Patch Release
What's Changed Update version.txt after 0.16.6 release by @loadams in #7218 Fix release links by @tjruwase in #7219 Fix pass for z3 and profiler by @tohtana in #7222 Fix build on AMD GPUs (related...
v0.16.6 Patch Release
What's Changed Update version.txt after 0.16.5 release by @loadams in #7180 Cross layer overlapping for domino by @hwchen2017 in #7178 async tp allreduce by @inkcherry in #7115 Fix issue #5242 gr...
v0.16.5 Patch Release
What's Changed Update version.txt after 0.16.4 release by @loadams in #7063 fix an outdated doc wrt CUDA_VISIBLE_DEVICES by @stas00 in #7058 Tecorigin sdaa accelerator by @siqi654321 in #6903 Hand...