この記事では、画像や動画生成のための拡散モデルの効率的な実行を実現するために、MXFP8およびNVFP4というマイクロスケーリングフォーマットを使用した手法について説明しています。これらのフォーマットは、NVIDIAのBlackwellアーキテクチャにネイティブにサポートされており、メモリと計算リソースの要求を軽減します。具体的には、MXFP8は8ビットのフォーマットで、BF16よりも高速な推論を提供し、NVFP4は4ビットの浮動小数点フォーマットで、特に高バッチの計算負荷の高いワークロードに最適です。記事では、これらのフォーマットを使用した場合の推論速度の向上を示し、CUDAグラフやLPIPSを用いた精度とパフォーマンスの最適化についても触れています。 • MXFP8とNVFP4は、NVIDIAのBlackwellアーキテクチャに対応したマイクロスケーリングフォーマットである。 • MXFP8は8ビットフォーマットで、BF16よりも高速な推論を実現し、視覚品質の損失がほとんどない。 • NVFP4は4ビットフォーマットで、メモリフットプリントがBF16の約3.5倍小さく、高バッチの計算負荷に適している。 • CUDAグラフやLPIPSを用いて、モデルの精度とパフォーマンスを最適化する手法が紹介されている。 • 実験の再現に必要なコードが提供されている。
Monarchは、PyTorch用の分散プログラミングフレームワークで、巨大なクラスター上での分散トレーニングジョブを簡単に実行できるように設計されています。これにより、スーパコンピュータを直接制御可能なシステムとして扱うことができ、ローカル開発の体験を大規模トレーニングに持ち込むことができます。Monarchは、エージェントが開発タスクを効率的に実行できるように、RDMAを利用したリモートファイルシステムや分散SQLテレメトリを提供します。また、KubernetesやSLURMとの統合が可能で、リソースを一度プロビジョニングすれば、必要なだけのジョブを実行できます。Monarchは、エージェント駆動のトレーニング開発を強化し、デバッグや依存関係の同期を迅速に行えるようにします。 • Monarchは分散トレーニングジョブを簡単に実行できるフレームワークである。 • スーパコンピュータを直接制御可能なシステムとして扱うことができる。 • RDMAを利用したリモートファイルシステムにより、コードや依存関係を迅速に同期できる。 • 分散SQLテレメトリを使用して、ライブ状態情報を収集し、デバッグを容易にする。 • KubernetesやSLURMとの統合が可能で、リソースを一度プロビジョニングすれば、複数のジョブを実行できる。
この記事では、深層学習における正規化手法であるLayerNormとRMSNormのtorch.compileによるパフォーマンス向上について評価しています。NVIDIA H100およびB200でのカーネルごとの性能を向上させ、ほぼ最先端のパフォーマンスを達成することを目指しています。LayerNormは平均と分散を用いて入力を正規化し、RMSNormは平方和を用いて正規化します。Quackというライブラリを基準にtorch.compileの性能を評価し、torch.compileがQuackの約50%の性能であることを確認しました。最終的に、オートチューニングを行い、Inductorのデフォルトを改善することで、H100およびB200での最先端性能を達成しました。 • LayerNormとRMSNormは深層学習における重要な正規化手法である。 • torch.compileの性能をNVIDIA H100およびB200で評価し、最先端のパフォーマンスを目指した。 • Quackライブラリを基準にtorch.compileの性能を比較した結果、torch.compileはQuackの約50%の性能であった。 • オートチューニングを行い、Inductorのデフォルト設定を改善することで、性能を向上させた。 • 特に、内側の削減RBLOCKをスケールアップし、持続的な削減のXBLOCKを調整した。
この記事では、TorchInductorに新たに統合されたCuteDSLバックエンドについて説明しています。TorchInductorは、行列乗算のためにTriton、CUTLASS(C++)、cuBLASの3つの自動調整バックエンドをサポートしており、CuteDSLはその4番目のバックエンドとして追加されました。CuteDSLは、NVIDIAが開発を進めており、最適化されたカーネルテンプレートを提供することで、TorchInductorのメンテナンス負担を軽減します。さらに、CuteDSLはPythonで書かれており、コンパイル時間が短く、CUTLASS C++よりも維持管理が容易です。GEMM(行列の積)操作は、トランスフォーマーモデルの計算プロファイルの大部分を占めており、これらの操作の最適化が重要です。CuteDSLは、最新のNVIDIAハードウェアでの最適なGEMMパフォーマンスを提供するために適したバックエンドとされています。 • TorchInductorにCuteDSLを新たに統合したこと • CuteDSLはNVIDIAが開発しており、最適化されたカーネルテンプレートを提供 • メンテナンス負担が軽減され、コンパイル時間が短縮される • CuteDSLはPythonで書かれており、CUTLASS C++よりも維持管理が容易 • GEMM操作はトランスフォーマーモデルの計算プロファイルの大部分を占める • CuteDSLは最新のNVIDIAハードウェアでの最適なGEMMパフォーマンスを提供するために適している
この記事では、NCCLウォッチドッグタイムアウトの理解を深めるための新しいツール「Flight Recorder」について説明しています。大規模AIモデルのトレーニング中に発生するこのエラーは、デバッグが難しく、原因が複雑であることが多いです。記事では、NCCLウォッチドッグタイムアウトが発生する理由や、一般的な根本原因(CPU側の分岐、GPUのハング、誤設定されたコレクティブなど)について詳しく解説しています。また、PyTorch Flight Recorderを使用して問題を迅速に特定し、解決する方法についても説明しています。最終的には、NCCLウォッチドッグタイムアウトを効率的に診断し、解決するための知識と実用的なツールを提供することを目的としています。 • NCCLウォッチドッグタイムアウトのエラーはデバッグが難しい • 一般的な根本原因にはCPU側の分岐やGPUのハングが含まれる • PyTorch Flight Recorderを使用して問題を特定する方法を解説 • コレクティブ操作の重要性とその実行方法について説明 • NCCLウォッチドッグはGPUトレーニングに特化しているが、他の分散バックエンドも監視可能
この記事では、PyTorchとNebiusの共同作業により、DeepSeek-V3 Mixture-of-ExpertsモデルのトレーニングをNVIDIA B200クラスターで行い、最大41%のトレーニング速度向上を実現したことが述べられています。具体的には、MXFP8トレーニングとDeepEP通信加速の2つの最適化手法がBF16ベースラインに対して評価されました。DeepEP単独での性能向上は32%で、MXFP8を組み合わせることで41%のスループット向上が確認されました。また、MXFP8トレーニングはBF16と同等の収束挙動を示し、全ての実験はNebius Cloud上で行われ、再現可能なオープンソースのPyTorchツールを使用しています。これにより、MoEアーキテクチャにおける計算とGPU間通信のボトルネックを解消し、コストパフォーマンスの向上が期待されます。 • DeepSeek-V3モデルのトレーニングにおいて、最大41%の速度向上を実現した。 • MXFP8トレーニングとDeepEP通信加速の2つの最適化手法を評価した。 • DeepEP単独での性能向上は32%、MXFP8を組み合わせることで41%のスループット向上が確認された。 • MXFP8トレーニングはBF16と同等の収束挙動を示した。 • 全ての実験はNebius Cloud上で行われ、再現可能なオープンソースのPyTorchツールを使用した。
PyTorch 2.11のリリースが発表され、主な変更点として、分散トレーニングのための微分可能なコレクティブ、HopperおよびBlackwell GPU上でのFlashAttention-4バックエンドのFlexAttention、Apple Silicon向けのMPSの包括的なオペレーター拡張、RNN/LSTMのGPUエクスポートサポート、XPUグラフのサポートが含まれています。このリリースは、PyTorch 2.10以降の432人の貢献者からの2723のコミットで構成されています。特に、分散深層学習研究における重要な進展として、コレクティブ操作を通じてバックプロパゲートできるトレーニングワークフローが可能になりました。また、MPSバックエンドからのエラーレポート機能や、RNNモジュールのGPUエクスポートが新たにサポートされ、モデルのデプロイが拡大しました。 • 分散トレーニングのための微分可能なコレクティブが追加され、トレーニングワークフローが改善された。 • FlexAttentionにFlashAttention-4バックエンドが追加され、最大3.2倍の速度向上が実現された。 • Apple Silicon向けのMPSのオペレーター拡張が行われ、新しい分布関数が追加された。 • RNNモジュールのGPUエクスポートがサポートされ、動的形状のLSTMのトレースが可能になった。 • XPUグラフにより、Intel GPU上での実行が最適化され、CPUオーバーヘッドが削減された。
この記事では、Intel® Core™ Ultra Series 3プロセッサーとPyTorch 2.10の新機能について説明しています。これらのプロセッサーは、AIシナリオをPCやエッジコンピューティングで実行するための性能向上を実現しています。特に、X e 3アーキテクチャや96個のXMX AIエンジンを搭載し、120 TOPsの性能を提供します。PyTorch 2.10は、TorchAOを活用して、開発サイクルの短縮と推論性能の向上を図っています。ユーザーは、Intel®プラットフォーム上で一貫したPyTorchの体験を享受でき、さまざまなデータ型やライブラリとの統合が可能です。さらに、LLM推論のための簡単なインストール手順も示されています。 • Intel® Core™ Ultra Series 3プロセッサーはAI性能を向上させるための新機能を搭載している。 • PyTorch 2.10はTorchAOを使用して、開発サイクルの短縮と推論性能の向上を実現している。 • ユーザーはIntel®プラットフォーム上で一貫したPyTorchの体験を享受できる。 • 多様なデータ型(int4, int8, fp8など)をサポートし、標準ライブラリとの統合が可能。 • LLM推論のための簡単なインストール手順が提供されている。
TorchSpecは、スケーラブルな推測デコーディングトレーニングのためのPyTorchネイティブフレームワークです。大規模言語モデル(LLM)の効率的な推論が重要な課題となる中、TorchSpecは推論システムとトレーニングシステムを分離し、隠れ状態をディスクに書き込むのではなく、直接ストリーミングすることでストレージ要件を削減します。このアプローチにより、推論とトレーニングのリソースを独立してスケールさせることが可能になります。TorchSpecを使用して、Kimi K2.5 EAGLE-3ドラフトモデルを1500 H200 GPU時間でトレーニングし、600kトレーニングサンプル、60億トークンにスケールしました。トレーニングされたドラフトモデルは、さまざまなベンチマークで強力なパフォーマンスを示し、出力スループットはバッチサイズ1で60%、バッチサイズ8で30%、バッチサイズ16で26%向上しました。 • 推測デコーディングはLLM生成を加速する効果的な手法である。 • TorchSpecは推論システムとトレーニングシステムを分離し、隠れ状態を直接ストリーミングする。 • 従来のアプローチはディスクに隠れ状態を保存するか、推論とトレーニングを同時に行う必要があった。 • TorchSpecを使用することで、Kimi K2.5 EAGLE-3ドラフトモデルを1500 H200 GPU時間でトレーニングした。 • トレーニングされたドラフトモデルは、出力スループットがバッチサイズに応じて60%以上向上した。
この記事では、Generalized Dot-Product Attention (GDPA) のカーネル設計について説明しています。GDPAは、標準的なドット積アテンションの変種であり、ソフトマックス操作を異なる活性化関数に置き換えることで、多様な相互作用のユースケースをサポートします。この設計は、MetaのGenerative Ads Model (GEM)などの大規模な推薦システムモデルで使用されています。GDPAカーネルは、Tri DaoのFlash Attention 4カーネルを基にしており、大バッチトレーニングや可変シーケンス長、非ソフトマックス活性化に特化した最適化を導入しています。最適化されたGDPAカーネルは、NVIDIA B200 GPU上で最大2倍の速度向上を達成し、全体のモデルに適用すると、トレーニングスループットが30%以上向上します。これにより、実際の生産トラフィック設定下で、前方パスで最大3.5倍、後方パスで1.6倍の速度向上が実現されます。 • GDPAは標準的なドット積アテンションを拡張し、ソフトマックスの代わりに異なる活性化関数を使用する。 • GDPAカーネルは、MetaのGenerative Ads Modelなどの大規模推薦システムで使用されている。 • 最適化されたGDPAカーネルは、NVIDIA B200 GPU上で最大2倍の速度向上を達成。 • 全体のモデルに適用すると、トレーニングスループットが30%以上向上。 • 実際の生産トラフィック設定下で、前方パスで最大3.5倍、後方パスで1.6倍の速度向上が実現。