PyTorch Blog
pytorch.org/blog/A Primer on LLM Post-Training
この記事では、大規模言語モデル(LLM)のポストトレーニングについて解説しています。ポストトレーニングは、モデルが人間の好む方法で応答し、推論する能力を教える重要なプロセスです。これは、ユーザーとの会話を行うための基本的なルールをモデルに教えるもので、事前トレーニングとは異なり、構造化されていないデータを使用して次の単語を予測するだけではありません。ポストトレーニングでは、システムプロンプトや監視付きファインチューニングを通じて、モデルに優先される基本ルールを課すことができます。また、ポストトレーニングのデータフォーマットについても説明されており、ユーザーとの対話がどのように行われるかが示されています。 • ポストトレーニングは、LLMが人間の好む応答をするための重要なプロセスである。 • ポストトレーニングは、ユーザーとの会話における基本的なルールをモデルに教える。 • 事前トレーニングは次の単語を予測するだけで、構造化されていないデータを使用する。 • ポストトレーニングでは、システムプロンプトや監視付きファインチューニングを使用して基本ルールを課す。 • ポストトレーニングのデータフォーマットにより、ユーザーとの対話が可能になる。
DRAMA Model Inference Efficiency Boosted by 1.7x-2.3x
DRAMAモデルの推論効率が1.7倍から2.3倍向上したことが報告されており、特に可変長シーケンスにおいてLLMベースのエンコーダーとしての生産準備が整った。DRAMAは、プルーニングされたLLaMAバックボーンを活用した密な検索モデルであり、さまざまなバージョンで良好なパフォーマンスを示している。特にDRAMA-baseは、コンパクトなサイズにもかかわらず、英語および多言語の検索タスクで強力なパフォーマンスを発揮する。しかし、実装にかかる高コストが普及の障壁となっていた。これを解決するために、ネストされたテンソル(NJT)を使用してモデルを最適化し、推論効率を大幅に改善した。NJTは、可変長シーケンスデータを効率的に処理するためのPyTorchのサブクラスであり、パディングの無駄を避けることができる。 • DRAMAモデルの推論効率が1.7倍から2.3倍向上した。 • NJT(ネストされたジャグドテンソル)を使用してモデルを最適化した。 • DRAMAはLLaMAバックボーンを活用した密な検索モデルである。 • DRAMA-baseはコンパクトなサイズでありながら、英語および多言語の検索タスクで強力なパフォーマンスを示す。 • NJTは可変長シーケンスデータを効率的に処理し、パディングの無駄を避ける。
ZenFlow: Stall-Free Offloading Engine for LLM Training
ZenFlowは、2025年夏に導入されたDeepSpeedの新しい拡張機能で、大規模言語モデル(LLM)のトレーニング用に設計されたスタールフリーオフロードエンジンです。オフロードは、増大するLLMサイズによるGPUメモリ圧力を軽減するための一般的な手法ですが、従来のオフロードフレームワークはCPUとGPUの性能差により、GPUのスタールが発生する問題があります。ZenFlowは、重要度に基づくパイプライニングを用いてGPUとCPUの更新を分離し、CPUの作業とPCIe転送をGPU計算と完全に重ね合わせることで、85%以上のスタール削減と最大5倍のスピードアップを実現します。これにより、オフロードのメモリ利点を享受しつつ、遅いハードウェアによるトレーニング速度の低下を防ぎます。ZenFlowは、即時にGPU更新される重要な勾配を優先し、残りは非同期でCPUにオフロードすることで、スタールを排除し、シングルGPUおよびマルチGPU環境でのハードウェア利用率を高めます。 • ZenFlowは、DeepSpeedの新しいオフロードエンジンで、LLMトレーニングのスタールを排除することを目的としている。 • 重要度に基づくパイプライニングを使用して、GPUとCPUの更新を分離し、CPU作業とPCIe転送をGPU計算と重ね合わせる。 • 85%以上のスタール削減と最大5倍のスピードアップを実現し、トレーニング速度を向上させる。 • 即時にGPU更新される重要な勾配を優先し、低優先度の勾配は非同期でCPUにオフロードする。 • モデルの精度を維持し、DeepSpeedとのシームレスな統合を実現。
Accelerating MoE’s with a Triton Persistent Cache-Aware Grouped GEMM Kernel
この記事では、Mixture-of-Experts(MoE)モデルのトレーニングと推論を行うための最適化されたTriton BF16 Grouped GEMMカーネルについて説明しています。Grouped GEMMは、入力テンソルの複数のスライスに対して独立したGEMMを単一のカーネル呼び出しで適用します。従来のPyTorch実装では、これらのGEMMはグループごとにforループで実行されていましたが、提案されたカーネルはNVIDIA H100 GPU上でDeepSeekv3のトレーニング時に最大2.62倍の速度向上を実現します。GEMMはLLMワークロードにおいて基本的な演算であり、MoEモデルではトークンが異なる専門家に動的にルーティングされるため、多くの独立したGEMMが発生します。Grouped GEMMは、これらの小さなGEMMを一つのカーネル呼び出しで実行することで、起動オーバーヘッドを削減し、GPUの利用効率を向上させます。 • MoEモデルのトレーニングと推論を最適化するためのTriton BF16 Grouped GEMMカーネルを提案 • Grouped GEMMは複数のスライスに対して独立したGEMMを適用し、従来のforループ実装よりも効率的 • NVIDIA H100 GPU上で最大2.62倍の速度向上を実現 • GEMMはLLMワークロードにおいて重要な演算であり、効率がモデルの速度に影響を与える • Persistent Kernel Designを用いて、スレッドブロックを「生かしたまま」にして計算を行うことで、起動オーバーヘッドを削減し、キャッシュの再利用を改善
PyTorch Wheel Variants, the Frontier of Python Packaging
この記事では、PyTorchのパッケージングに関する問題と、Wheel Variantsの導入について説明しています。PyTorchは、AI製品の開発と展開において主要な機械学習フレームワークですが、パッケージングの難しさがユーザーにとっての大きな課題となっています。特に、異なるハードウェア向けにコンパイルされたPyTorchのインストール手順は複雑で、多くのステップを要します。これに対処するため、PyTorch 2.8ではWheel Variantsの実験的サポートが開始され、ユーザーのハードウェアに基づいて最適なPyTorchのバリアントを自動的にインストールできる機能が提供されます。この新しいアプローチは、Pythonパッケージングの未来において重要な役割を果たすと期待されています。 • PyTorchのパッケージングは難しく、特に異なるハードウェア向けのインストールが複雑である。 • Wheel Variantsは、ユーザーのハードウェアに基づいて最適なPyTorchのバリアントを自動的にインストールする機能を提供する。 • 現在のインストール手順は多くのステップを要し、ユーザーにとってフラストレーションの原因となっている。 • Wheel Variantsは、特定のハードウェアとソフトウェアのサポートを明示するための新しい方法として期待されている。 • この機能は実験的であり、PEPプロセスを通じて開発が進められている。
PyTorch Day China Recap
2025年6月7日、北京で開催されたPyTorch Day Chinaでは、PyTorch Foundationと北京人工知能アカデミー(BAAI)が共催し、16の講演が行われ、各セッションには平均160人が参加した。PyTorch Foundationのマット・ホワイト氏は、オープンソースAIの推進に対するコミットメントを強調し、設立から2年で30名のメンバーを持つ団体に成長したことを報告した。新たにvLLMとDeepSpeedがFoundationの傘下プロジェクトとして加わり、BAAIのオープンソースプロジェクトFlagGemsもPyTorchエコシステムに参加した。また、PyTorch大使プログラムが開始され、1ヶ月で200件以上の応募があった。Yonghua Lin氏は、さまざまなAIチップ上での大規模モデルの運用について、FlagOSという統一されたオープンソースシステムソフトウェアスタックを紹介し、効率性と互換性に優れた性能を示した。HuggingFaceのTiezhen Wang氏は、700,000以上のPyTorchモデルをホストするHuggingFace Hubの機能を説明し、データセットの視覚化やSQLクエリ機能を提供することを強調した。ByteDanceのYuxuan Tong氏は、エージェントタスク向けのオープンソース大規模LLM強化学習フレームワークverlを紹介し、プログラミングの柔軟性と効率性のバランスを取ることの重要性を述べた。 • PyTorch Day Chinaは2025年6月7日に北京で開催され、16の講演が行われた。 • PyTorch FoundationはオープンソースAIの推進にコミットし、設立から2年で30名のメンバーを持つ団体に成長した。 • 新たにvLLMとDeepSpeedがFoundationの傘下プロジェクトとして加わった。 • BAAIのFlagGemsもPyTorchエコシステムに参加した。 • HuggingFace Hubは700,000以上のPyTorchモデルをホストし、さまざまな機能を提供している。 • verlは大規模LLM強化学習フレームワークで、プログラミングの柔軟性と効率性を両立させる。
Bringing Generative AI to the Masses with ExecuTorch and KleidiAI
ExecuTorch 0.7はKleidiAIをデフォルトで有効にし、Arm CPU上での自動加速を実現します。これにより、3~5年前のスマートフォンやRaspberry Pi 5を含む数百万の既存デバイスで、Generative AI(GenAI)が高性能で動作可能になります。プライベート音声アシスタントやメッセージ要約、ローカルコード生成AIコパイロットなどのオンデバイスユースケースが、クラウドなしで実現可能です。ArmのSME2発表は、KleidiAIが次世代AIの加速レイヤーとしての役割を強調しています。KleidiAIは、XNNPackやMediaPipe、MNN、ONNX RuntimeなどのエッジAIフレームワークに組み込まれ、開発者によるコード変更なしで大幅な性能向上を実現します。ExecuTorch 0.7ベータ版では、KleidiAIがデフォルトで有効になり、最新のArm CPUアーキテクチャに基づくデバイスや、古い世代のスマートフォンでも自動加速が提供されます。これにより、モデルの起動が速く、レイテンシが低く、メモリフットプリントが小さくなり、統合の障害がなくなります。 • ExecuTorch 0.7がKleidiAIをデフォルトで有効にし、Arm CPU上での自動加速を実現 • Generative AIが数百万の既存デバイスで高性能に動作可能 • プライベート音声アシスタントやメッセージ要約などのオンデバイスユースケースが実現 • KleidiAIがエッジAIフレームワークに組み込まれ、開発者によるコード変更なしで性能向上 • ExecuTorch 0.7ベータ版でKleidiAIがデフォルトで有効になり、自動加速が提供される • モデルの起動が速く、レイテンシが低く、メモリフットプリントが小さくなる
vLLM Beijing Meetup: Advancing Large-scale LLM Deployment
2025年8月2日、Tencentの北京本社で開催されたvLLM Beijing Meetupでは、260人の開発者や業界専門家が集まり、vLLMエコシステムの急成長とその実用的な能力を目の当たりにしました。イベントでは、vLLMのコアチームやTencent、Huawei、Ant Group、ByteDanceなどの企業が、効率性、柔軟性、スケーラビリティに関する最新の実践と進展を共有しました。特に、vLLMの大規模分散推論、マルチモーダルサポート、スケジューリング戦略の改善、拡張性についての発表がありました。また、TencentのChao Zhangは、vLLMを基にしたカスタマイズされたPD(Prefill-Decode)分解フレームワークを紹介し、推論効率を大幅に向上させた事例を示しました。さらに、Ant Groupのエンジニアは、DeepSeekの推論性能を10倍向上させるための最適化戦略について詳しく解説しました。 • 260人の開発者や専門家が集まったvLLM Beijing Meetupの開催 • vLLMの効率性、柔軟性、スケーラビリティに関する最新の実践と進展の共有 • TencentのChao ZhangによるPD分解フレームワークの紹介と推論効率の向上 • vLLM AscendプロジェクトによるAscend AIハードウェアプラットフォームへの適応 • DeepSeekの推論性能を10倍向上させるための最適化戦略の解説
Advancing Low-Bit Operators in PyTorch and ExecuTorch: Dynamic Kernel Selection, KleidiAI, and Quantized Tied Embeddings
この記事では、PyTorchとExecuTorchにおける低ビット演算子の進展について説明しています。主な改善点として、動的カーネル選択、ArmのKleidiAIライブラリとの統合、量子化された結合埋め込みのサポートが挙げられます。これにより、PyTorchでの低ビット推論のパフォーマンスが向上し、特にExecuTorchを使用したデバイス上での効率的な実行が実現されます。KleidiAIカーネルを使用することで、M1 Mac上で373トークン/秒を超える2倍以上のプリフィルパフォーマンスの向上が見られました。動的カーネル選択は、パックされた重みの形式やCPUの機能に基づいて最適なカーネルを自動的に選択します。また、KleidiAIとの統合により、最適化されたマイクロカーネルが利用可能になり、パフォーマンスが向上します。最後に、量子化された結合埋め込みとlm_headカーネルについても言及されており、特に小型モデルにおいて重要な役割を果たしています。 • 低ビット推論のパフォーマンス向上のための3つの主要な改善点がある • 動的カーネル選択により、最適なカーネルが自動的に選ばれる • KleidiAIライブラリとの統合により、Arm CPU向けの最適化されたマイクロカーネルが利用可能 • ExecuTorchを使用することで、M1 Mac上で373トークン/秒を超えるパフォーマンス向上が実現 • 量子化された結合埋め込みは、小型LLMにおいて重要な役割を果たす
PyTorch 2.8 Release Blog
PyTorch 2.8のリリースが発表され、主な新機能として、第三者のC++/CUDA拡張用の安定したlibtorch ABI、Intel CPU上での高性能な量子化LLM推論、プラットフォーム依存のホイールを公開するためのWheel Variants機能が追加されました。特に、量子化されたLLMの推論はストレージとメモリを節約し、推論のレイテンシを低減します。また、ROCm 7の新しいgfx950アーキテクチャに対する機能サポートや、モデルのコンパイルとエクスポートのための制御フロー演算子も導入されました。PyTorch 2.8は585人の貢献者からの4164コミットで構成されており、コミュニティへの感謝が表明されています。 • 第三者のC++/CUDA拡張用の安定したlibtorch ABIが導入された。 • Intel CPU上での高性能な量子化LLM推論が可能になった。 • Wheel Variants機能により、プラットフォーム依存のホイールを公開できるようになった。 • ROCm 7のgfx950アーキテクチャに対する機能サポートが追加された。 • 制御フロー演算子が導入され、モデルのコンパイルとエクスポートが可能になった。
PyTorch on Kubernetes: Kubeflow Trainer Joins the PyTorch Ecosystem
Kubeflow TrainerがPyTorchエコシステムに統合され、Kubernetes上でのPyTorchの実行が信頼性、スケーラビリティ、コミュニティサポートを持つソリューションとして提供されることが発表されました。Kubeflow Trainerは、AIモデルのスケーラブルで分散したトレーニングを可能にし、大規模言語モデル(LLM)のファインチューニングに特化しています。主な機能には、Kubernetesの複雑さを簡素化するAPI、AI実践者向けのPython SDK、LLMのファインチューニング用のブループリント、GPUの最適化、先進的なスケジューリング機能、MPIワークロードの加速、耐障害性の向上が含まれます。これにより、AI実践者はインフラの詳細を気にせずにPyTorchモデルの開発に集中でき、プラットフォーム管理者はリソースの最大活用とコスト効率を実現できます。 • Kubeflow TrainerがPyTorchエコシステムに統合されたことにより、Kubernetes上でのPyTorchの実行が容易になる。 • Kubeflow TrainerはAIモデルのスケーラブルなトレーニングを可能にし、特に大規模言語モデルのファインチューニングに特化している。 • Kubernetesの複雑さを簡素化するAPIが提供され、AI実践者はインフラの詳細を気にせずに開発に集中できる。 • Python SDKにより、Kubernetes APIとの直接的なやり取りが抽象化され、ユーザーはPyTorchモデルの開発に専念できる。 • GPUの最適化により、大規模データを効率的に分散GPUにストリーミングできる。 • 先進的なスケジューリング機能により、必要なリソースがトレーニングジョブの開始前に確保される。 • 耐障害性の向上により、AIワークロードの信頼性と効率が改善される。
PyTorch Conference 2025 Schedule Announcement
PyTorch Conference 2025のスケジュールが発表され、2025年10月22日から23日にサンフランシスコで開催される。このイベントでは、AIの未来を形作るリーダーたちからの洞察や、ハンズオンの技術セッションが提供される。主な内容には、モバイルおよび組み込みアプリケーション開発者向けのExecuTorch 1.0、誰でも簡単に利用できるvLLM、PyTorchエコシステム全体でのモデル定義の標準化を目指すvLLM Transformers、AMD GPUを用いた大規模な効率的MoE事前トレーニング、強化学習における運の最大化、分散エッジクラウドにおける生成AIの活用などが含まれる。 • PyTorch Conference 2025は2025年10月22日から23日にサンフランシスコで開催される。 • イベントではAIの未来に関するセッションやハンズオン技術コンテンツが提供される。 • ExecuTorch 1.0はモバイルおよび組み込みアプリケーション開発者向けの一般提供状況を発表する。 • vLLMは誰でも簡単に利用できるLLMサービングを提供する。 • vLLM TransformersはPyTorchエコシステム全体でのモデル定義の標準化を目指す。 • AMD GPUを用いた効率的MoEの大規模事前トレーニングが行われる。 • 強化学習における運の最大化に関するセッションがある。 • 分散エッジクラウドにおける生成AIの活用方法が紹介される。
Enabling Fully Sharded Data Parallel (FSDP2) in Opacus
Opacusは、大規模モデルのプライベートトレーニングをサポートするために、Fully Sharded Data Parallel (FSDP2)を導入しました。これにより、モデル、勾配、オプティマイザの状態を複数のGPUワーカーに分散させることで、メモリ使用量を効率的に管理し、大規模モデルのトレーニングを可能にします。FSDPは、モデルのパラメータをシャーディングすることで、トレーニングに必要なメモリフットプリントを大幅に削減します。さらに、Fast Gradient Clipping (FGC)やGhost Clipping (GC)を活用することで、サンプルごとの勾配を生成せずに勾配クリッピングを実現し、メモリ効率を向上させています。これにより、Opacusは中規模から大規模モデルのプライベートトレーニングを支援するための新たな並列化戦略を提供します。 • Opacusは大規模モデルのプライベートトレーニングをサポートするためにFSDP2を導入した。 • FSDPはモデル、勾配、オプティマイザの状態を複数のGPUに分散させることでメモリ効率を向上させる。 • Fast Gradient Clipping (FGC)とGhost Clipping (GC)を使用して、メモリフットプリントを削減しつつ勾配クリッピングを実現。 • FSDPは1D、2D、4Dの並列処理戦略を用いて、モデルサイズに応じたトレーニングを可能にする。 • FSDPの導入により、Opacusは中規模から大規模モデルのトレーニングを効率的に支援できる。
Reducing Storage Footprint and Bandwidth Usage for Distributed Checkpoints with PyTorch DCP
PyTorch Distributed Checkpointing (DCP)は、分散トレーニング環境におけるモデルチェックポイントの管理に役立つツールです。この記事では、DCPのモジュール設計を活用して圧縮を統合し、チェックポイントサイズを22%削減する方法を紹介します。大規模な分散チェックポイントは、ストレージの要求や帯域幅コストが高くなるため、圧縮が重要な解決策となります。zstd圧縮アルゴリズムを使用し、DCPのStorageWriterコンポーネントをカスタマイズして、ストレージへのデータ書き込みを最適化しました。具体的には、_FileSystemWriterクラスを拡張し、StreamTransformExtensionを利用してデータの変換を行います。これにより、効率的なチェックポイント管理が可能になります。 • PyTorch DCPは分散トレーニング環境でのモデルチェックポイント管理に特化したツールである。 • DCPのモジュール設計により、開発者は特定の要件に応じてコンポーネントをカスタマイズできる。 • 圧縮を用いることで、チェックポイントサイズを22%削減することが可能である。 • zstd圧縮アルゴリズムを選択し、効率的な圧縮を実現した。 • StorageWriterコンポーネントをカスタマイズし、データの書き込みを最適化する方法を示している。
PyTorch + vLLM = ♥️
この記事では、PyTorchとvLLMの統合がAIエコシステムにおいて重要であり、特に生成AIアプリケーションにおいて両者がどのように活用されているかを説明しています。PyTorch Foundationの傘下に移行したことで、さまざまな顧客からのサポートを受けており、vLLMはPyTorchのエコシステムを活用してイノベーションを加速しています。具体的には、torch.compileやTorchAO、FlexAttentionなどのプロジェクトが協力し、複雑な並列処理や異種ハードウェアのサポートを行っています。これにより、Llamaモデルなどの最適化や高性能推論が可能になり、開発者にとっての利便性が向上しています。さらに、vLLMはTorchTitanやTorchTuneを使用して、量子化モデルのトレーニングからデプロイまでのワークフローをシームレスに実現しています。 • PyTorchとvLLMは生成AIアプリケーションでの使用が増加している。 • PyTorch Foundationの傘下に移行し、さまざまな顧客からのサポートを受けている。 • vLLMはtorch.compileを使用してモデルのパフォーマンスを最適化している。 • TorchAOはvLLMでの量子化ソリューションとして公式にサポートされている。 • FlexAttentionがvLLMに統合され、より効率的な注意機構を提供している。
FlagGems Joins the PyTorch Ecosystem: Triton-Powered Operator Library for Universal AI Acceleration
FlagGemsは、PyTorchエコシステムに参加したTritonを活用したオペレーターライブラリで、AI計算の民主化を目指しています。180以上のPyTorch互換オペレーターを提供し、開発者がさまざまなハードウェアバックエンドに最適化されたカーネルを簡単に展開できるように設計されています。FlagGemsは、ATenオペレーター呼び出しをインターセプトし、バックエンド固有のTriton実装を提供することで、代替GPUやドメイン特化型アクセラレーターのサポートを容易にします。自動コード生成機能を持ち、効率的なカーネルを生成することが可能です。FlagGemsは、PyTorchのネイティブオペレーター実装に対してもパフォーマンスの向上を示しており、開発者にとって強力なツールとなるでしょう。 • FlagGemsは、AI計算の民主化を目指すTritonを活用したPyTorchオペレーターライブラリである。 • 180以上のPyTorch互換オペレーターを提供し、開発者が簡単に最適化されたカーネルを展開できる。 • ATenオペレーター呼び出しをインターセプトし、バックエンド固有のTriton実装を提供する。 • 自動コード生成機能により、効率的なカーネルを生成できる。 • FlagGemsは、PyTorchのネイティブオペレーター実装に対してパフォーマンスの向上を示している。
Presenting Flux Fast: Making Flux go brrr on H100s
この記事では、Flux Fastという新しい手法を用いて、Flux.1-SchnellおよびFlux.1-DevモデルのパフォーマンスをH100 GPU上で約2.5倍向上させる方法を紹介しています。最適化には、主にPyTorchのネイティブコードを使用し、Diffusersライブラリのパイプラインをtorch.compileに適した形に保つことが含まれています。具体的な最適化手法としては、CUDAグラフの利用、注意計算のためのq,k,vプロジェクションの統合、デコーダ出力のためのtorch.channels_lastメモリ形式の使用、Flash Attention v3の導入、動的float8活性化量子化などが挙げられます。また、最適化の過程でCPUとGPU間の同期ポイントを排除することが重要であることも強調されています。 • Flux.1-SchnellおよびFlux.1-Devモデルのパフォーマンスを約2.5倍向上させる手法を紹介 • 最適化には主にPyTorchのネイティブコードを使用 • CUDAグラフを利用してカーネルの起動を最適化 • 注意計算のためのq,k,vプロジェクションの統合が重要 • CPUとGPU間の同期ポイントを排除することがパフォーマンス向上に寄与する • FP8量子化は画質にわずかな影響を与えるが、他の最適化は画質を維持する
Fault Tolerant Llama: training with 2000 synthetic failures every ~15 seconds and no checkpoints on Crusoe L40S
この記事では、torchftとtorchtitanを使用して、極端な合成障害率でのモデルのトレーニングを実施し、フォールトトレラントトレーニングの信頼性と正確性を証明することを目的としています。具体的には、1200回の障害を経てトレーニング損失を測定し、チェックポイントなしでのトレーニングを行いました。torchftは、shardedモデルをサポートし、HSDP2を使用してフォールトトレラントDDPを実現します。トレーニングジョブは、グローバルなLighthouseサーバーと各レプリカグループのマネージャーによってリアルタイムで調整され、障害耐性のためのいくつかのアルゴリズムが実装されています。特に、Fault Tolerant HSDPとLocalSGD/DiLoCoが重要な役割を果たします。最後に、300のL40S GPUを使用したクラスター設定についても詳述されています。 • torchftとtorchtitanを使用して、極端な合成障害率でのモデルのトレーニングを実施 • 1200回の障害を経てトレーニング損失を測定 • チェックポイントなしでのトレーニングを行う • torchftはshardedモデルをサポートし、HSDP2を使用してフォールトトレラントDDPを実現 • トレーニングジョブはLighthouseサーバーとマネージャーによって調整される • Fault Tolerant HSDPとLocalSGD/DiLoCoのアルゴリズムが実装されている • 300のL40S GPUを使用したクラスター設定について詳述
PyTorch Docathon 2025: Wrap Up
PyTorch Docathon 2025が6月3日から15日まで開催され、150人以上の参加者が長年のドキュメント問題の解決に貢献しました。このイベントでは、2つのPyTorchリポジトリで60件以上のプルリクエストがマージされました。特に優れた貢献をした参加者には特別な感謝が示され、上位の貢献者が表彰されました。PyTorchチームは、参加者の努力がAIコミュニティを革新していると強調し、今後の活動を期待しています。 • 150人以上の参加者がドキュメント問題の解決に貢献した • 60件以上のプルリクエストがマージされた • 特に優れた貢献者が表彰された • 参加者の努力がAIコミュニティを革新している • 今後の活動への期待が示された
DeepNVMe: Affordable I/O scaling for Deep Learning Applications
DeepNVMeは、ディープラーニング(DL)アプリケーションにおけるI/Oボトルネックを解決するための最適化スイートで、2024年夏に導入されました。主にローカルNVMe SSD、NVIDIA Magnum IO GPUDirect Storage、Linux非同期I/Oを活用し、I/OバウンドのDLワークロードに対して大幅な速度向上を実現します。最近のアップデートでは、FastPersistモデルチェックポイント作成とSGLang推論への適用範囲の拡大、PCIe Gen4からGen5 NVMe SSDへのアップグレードによるI/Oパフォーマンスのスケーリング、CPU専用環境やオフセットベースのI/O操作、テンソルデータ型キャスティングへの対応が含まれています。FastPersistは、モデルチェックポイントの作成を迅速化し、ZeRO-Inferenceは生成AIへのアクセスを民主化します。これにより、数百億のパラメータを持つ大規模モデルの推論を1つのGPUで実行可能にします。 • DeepNVMeはディープラーニングのI/Oボトルネックを解決するための最適化スイートである。 • FastPersistはモデルチェックポイント作成のオーバーヘッドを軽減し、20倍以上の速度向上を実現する。 • ZeRO-Inferenceは、GPUコストを削減し、数百億のパラメータを持つモデルの推論を1つのGPUで可能にする。 • DeepNVMeは、ローカルNVMe SSDやNVIDIA GPUDirect Storageを活用してI/O性能を向上させる。 • 最新のAzure SKUでのZeRO-Inferenceのパフォーマンスは、より高速なNVMe SSDにスケールする。
ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization
ParetoQは、非常に低ビットのLLM(大規模言語モデル)量子化におけるスケーリング法則を再考するためのアルゴリズムです。従来の低ビットスケーリング法則に対する結論を、より良い量子化スキームの設計とトレーニングの改善によって大幅に強化できることを示しています。ParetoQは、バイナリ、テラリ、2ビットから4ビットの量子化を統一する初のアルゴリズムであり、すべてのビット幅で最先端のモデルを生成します。特に、バイナリ量子化は精度を大きく損なう一方で、テラリ、2ビット、3ビットの量子化は性能が同等で、4ビットをしばしば上回ります。ParetoQはPyTorchモデルに基づいており、Hugging FaceでMobileLLMの低ビットモデルコレクションを公開しています。ユーザーはtorchaoを通じてParetoQを利用し、量子化パラメータを最適化して精度と圧縮のトレードオフを調整できます。 • ParetoQは低ビット量子化におけるスケーリング法則を再考するアルゴリズムである。 • バイナリ、テラリ、2ビットから4ビットの量子化を統一する。 • 最先端のモデルをすべてのビット幅で生成し、従来の手法を上回る。 • バイナリ量子化は精度を大きく損なうが、テラリ、2ビット、3ビットは性能が同等である。 • ユーザーはtorchaoを通じてParetoQを利用し、量子化パラメータを最適化できる。
HuggingFace Safetensors Support in PyTorch Distributed Checkpointing
PyTorch Distributed Checkpointing (DCP)は、HuggingFaceのsafetensorsフォーマットとの互換性を向上させるための取り組みを行っている。HuggingFaceは推論やファインチューニングで広く使用されており、DCPはこのフォーマットをネイティブにサポートすることで、ユーザーがチェックポイントを簡単に保存・読み込みできるようにしている。torchtuneはこの変更の最初の顧客であり、DCPのAPIを使用することで、HuggingFaceから直接モデルの重みを読み書きできるようになり、ユーザー体験が向上した。DCPは、HuggingFaceのsafetensorsメタデータがDCPメタデータと同じレベルの情報を提供しないため、分散チェックポイントのサポートが現在は不十分であるが、将来的にはこの機能をネイティブにサポートする計画がある。 • HuggingFaceのsafetensorsフォーマットをDCPがネイティブにサポートすることで、チェックポイントの保存と読み込みが簡素化される。 • torchtuneはDCPの最初の顧客で、HuggingFaceから直接モデルの重みを読み書きできるようになり、ユーザー体験が向上した。 • DCPのAPIを使用することで、ユーザーはチェックポイントをローカルストレージにダウンロード・アップロードする必要がなくなる。 • HuggingFaceStorageReaderとHuggingFaceStorageWriterを使用して、fsspecに基づくパスでsafetensorsフォーマットを読み書きできる。 • 将来的には、DCPがHuggingFaceのsafetensorsチェックポイントの分散読み込みと保存をサポートする計画がある。
Introducing the PyTorch Ecosystem Working Group and Project Spotlights
PyTorchエコシステムワーキンググループは、オープンソースのAIプロジェクトを統合し、PyTorchを基盤としたプロジェクトを支援することを目的としている。2025年に設立され、成熟したプロジェクトをコミュニティに紹介する役割を担っている。ワーキンググループは、機能要件や測定可能な要件を定義し、リポジトリの構造に関するベストプラクティスを実施している。現在までに21件のプロジェクトが提出されており、コミュニティからの反響も良好である。新たにSGLangとdocTRがPyTorchエコシステムに加わり、SGLangは大規模言語モデルの高速サービングエンジンであり、docTRはOCR機能をアプリケーションに統合するためのプロジェクトである。 • PyTorchエコシステムワーキンググループは、オープンソースAIプロジェクトを統合することを目的としている。 • ワーキンググループは、成熟したプロジェクトをコミュニティに紹介する役割を担っている。 • 機能要件や測定可能な要件を定義し、リポジトリの構造に関するベストプラクティスを実施している。 • 現在までに21件のプロジェクトが提出され、コミュニティからの反響が良好である。 • 新たにSGLangとdocTRがPyTorchエコシステムに加わった。 • SGLangは大規模言語モデルの高速サービングエンジンで、効率的なサービングを提供する。 • docTRはOCR機能をアプリケーションに統合するためのプロジェクトで、テキスト検出と認識を行う。
Open Source AI is Transforming the Economy—Here’s What the Data Shows
2025年の中頃に近づく中、オープンソースAI(OSAI)がビジネスや経済、産業を変革する可能性が広く認識されている。Metaによる委託プロジェクトで、LF ResearchはOSAIがどのように経済や労働力に影響を与えているかを調査した。調査結果によると、OSAIの採用率は非常に高く、63%の企業が積極的に利用しており、89%のAIを導入している組織がOSAIをインフラに組み込んでいる。コストの低さが大きな要因で、2/3の組織がOSAIの方が安価であると回答。オープンソースはイノベーションや起業を促進し、開発者や研究者の協力を得ることで高品質なモデルの開発を加速させる。AIツールの導入は開発者の働き方を変え、プロジェクト管理にかける時間を減少させたが、AIによる大規模な解雇は見られない。 • オープンソースAIの採用率は高く、63%の企業が利用している。 • 89%のAI導入企業がオープンソースAIをインフラに組み込んでいる。 • コストが低く、2/3の組織がOSAIの方が安価であると認識。 • オープンソースはイノベーションや起業を促進する。 • AIツールの導入により開発者の働き方が変わったが、大規模な解雇は発生していない。
Build Responsible AI Products with your own Yellow Teaming LLM
この記事では、AIシステムを責任を持って構築するための「イエローチーミング」という手法について説明しています。イエローチーミングは、製品のライフサイクルの初期段階から慎重な設計と実装を重視し、意図しない影響を事前に明らかにするプロアクティブなアプローチです。特に、AI採用ツールが特定のデモグラフィックに偏らないようにすることが求められます。PyTorchを用いたLLM(大規模言語モデル)をAWS Graviton4上で動作させるイエローチーミングアシスタントの作成方法も紹介されており、機能設計の意図しないビジネス上の影響を探る手助けをします。イエローチーミングは、製品の決定がもたらす影響を広い視野で分析することで、より良い製品を設計し、企業の利益とユーザーの幸福を促進することができます。 • イエローチーミングは、AIシステムの責任ある構築を促進する手法である。 • この手法は、製品のライフサイクルの初期段階から慎重な設計を重視する。 • PyTorchを使用して、AWS Graviton4上で動作するイエローチーミングアシスタントを作成する方法が示されている。 • イエローチーミングは、意図しない影響を事前に明らかにすることで、より良い製品を設計する助けとなる。 • 従来の製品開発は狭い成功指標に基づくことが多く、他の重要なシグナルを無視する可能性がある。 • イエローチーミングを実施することで、ユーザーや社会に与える影響を評価し、長期的な成功を目指すことができる。
PyTorch Hangzhou Meetup Recap: Exploring the AI Open Source Ecosystem and Cutting-Edge Technology Practices
2025年5月17日に杭州で開催されたPyTorch Meetupでは、約60名の開発者や業界専門家が集まり、PyTorchエコシステムの発展やAI加速技術、業界の実践について議論が行われた。Yikun Jiang氏はPyTorchコミュニティの最新情報を共有し、技術革新やオープンソース技術の実用化を推進する重要性を強調した。HuaweiのPeng Xue氏は、Ascend NPU向けのTorchairという最適化バックエンドを紹介し、メモリ管理や動的形状の最適化について詳述した。さらに、TencentのChao Zhang氏は、大規模モデル推論におけるPrefill/Decode分離技術を発表し、システムのスループット向上を実現した。最後に、HuaweiのChenyi Pan氏は強化学習の加速技術とトレーニング実践について説明し、リソース利用効率を向上させる新しいソリューションを提案した。 • PyTorch Meetupは杭州で開催され、60名の開発者と業界専門家が参加した。 • Yikun Jiang氏がPyTorchコミュニティの最新情報を共有し、オープンソース技術の実用化を推進する重要性を強調した。 • Peng Xue氏はAscend NPU向けのTorchairバックエンドを紹介し、メモリ管理や動的形状の最適化を行った。 • Chao Zhang氏は大規模モデル推論におけるPrefill/Decode分離技術を発表し、システムのスループットを向上させた。 • Chenyi Pan氏は強化学習の加速技術を紹介し、リソース利用効率を向上させる新しいソリューションを提案した。