PyTorch Blog
pytorch.org/blog/TorchAO Quantized Models and Quantization Recipes Now Available on HuggingFace Hub
PyTorchは、TorchAOチームとUnslothの協力により、Phi4-mini-instruct、Qwen3、SmolLM3-3B、gemma-3-270m-itのネイティブ量子化バリアントを提供しています。これらのモデルは、int4およびfloat8の量子化を活用し、A100、H100、モバイルデバイスで効率的な推論を実現し、bfloat16モデルと比較してモデル品質の劣化を最小限に抑えています。リリースされたモデルは、サーバーおよびモバイルプラットフォーム向けに最適化されており、ユーザーは生産環境での高速モデルの展開が可能です。また、PyTorchのネイティブ量子化を自分のモデルやデータセットに適用するための包括的で再現可能な量子化レシピとガイドも提供されています。これにより、ユーザーはモデルの品質評価やパフォーマンスベンチマークを行うことができます。 • PyTorchが提供する量子化モデルは、Phi4-mini-instruct、Qwen3、SmolLM3-3B、gemma-3-270m-itである。 • int4およびfloat8の量子化を使用し、A100、H100、モバイルデバイスで効率的な推論を実現。 • リリースされたモデルは、サーバーおよびモバイルプラットフォーム向けに最適化されている。 • PyTorchのネイティブ量子化を適用するための再現可能な量子化レシピとガイドが提供されている。 • 量子化により、モデルの速度が最大2倍向上し、メモリ使用量が30-60%削減される。
AI Infra Summit at PyTorch Conference
2025年10月21日にサンフランシスコで開催されるAI Infra Summitは、AIの最新の革新を支えるインフラに関する専門家が集まるイベントです。この半日サミットでは、AIの急速な進展を促進するツールやプラットフォームについて議論され、トレーニング前後の処理、ファインチューニング、推論時間のスケーリング、モデル圧縮などの最適化が取り上げられます。参加者は、AIワークロードの効率的なスケーリングやトレーニング・推論の最適化、生成モデル時代のAIインフラの未来についての洞察を得ることができます。プログラムには基調講演、技術講演、パネルディスカッションが含まれ、モデル最適化や大規模トレーニング、新しい実行パラダイムに関心のある人々が集まります。 • AIインフラの最新の革新を支える専門家が集まるイベント • トレーニング前後の処理、ファインチューニング、推論時間のスケーリングなどが議論される • AIワークロードの効率的なスケーリングやトレーニング・推論の最適化についての洞察が得られる • 基調講演や技術講演、パネルディスカッションが行われる • モデル最適化や大規模トレーニングに関心のある人々が集まる
Experience in Reducing PT2 Compilation Time for Meta Internal Workloads
この記事では、Meta内部のワークロードにおけるPyTorch 2.0(PT2)のコンパイル時間を短縮する取り組みについて説明しています。PT2は、Pythonモデルコードを高性能な機械コードに変換するコンパイルステップを導入しましたが、大規模なモデルでは初期コンパイルがボトルネックとなることがあります。特に、Metaの内部推奨モデルでは、コンパイルに1時間以上かかることもあります。2024年末に、PT2のコンパイルプロセスを詳細に分析し、ボトルネックを特定するためにTlparseを使用しました。分析の結果、Dynamo、AOTInductor、TorchInductorなどの主要コンポーネントにおける時間消費の傾向が明らかになり、特にTorchInductorが67.8%を占めていることが分かりました。これに基づき、コンパイル時間を短縮するための具体的な改善策を特定し、実施しました。 • PT2のコンパイルが大規模モデルでボトルネックとなる問題を解決するための取り組み。 • Tlparseを用いてPT2のコンパイルプロセスを詳細に分析し、ボトルネックを特定。 • Dynamo、AOTInductor、TorchInductorの各コンポーネントの時間消費を分析。 • TorchInductorが67.8%の時間を占めていることが判明。 • コンパイル時間を短縮するために、最も時間を消費する領域の最適化やキャッシュ性能の向上を目指す。
High-performance quantized LLM inference on Intel CPUs with native PyTorch
PyTorch 2.8では、Intel Xeonプロセッサ上での高性能な量子化LLM推論が可能になりました。新機能として、libtorch ABIの安定版、Wheel Variant Support、Inductor CUTLASSバックエンドサポートなどが追加され、特に量子化設定が最適化されています。これにより、PyTorchは他のLLMフレームワークと比較しても競争力のある低精度性能を提供します。ユーザーは、AMXサポートのあるX86 CPUを選び、Torchaoの量子化手法を用いてモデルを量子化し、torch.compileを使用して最適化を自動的に適用することで、パフォーマンスを向上させることができます。 • PyTorch 2.8でIntel Xeonプロセッサ上のLLM推論が高性能化された。 • 量子化設定(A16W8、DA8W8、A16W4など)が最適化され、競争力のある性能を実現。 • torch.compileを使用して、量子化モデルのパフォーマンスを向上させることができる。 • ユーザーはAMXサポートのあるX86 CPUを選ぶ必要がある。 • Torchaoの量子化手法を用いてモデルを量子化する必要がある。
PyTorch 2.8 Brings Native XCCL Support to Intel GPUs: Case Studies from Argonne National Laboratory
PyTorch 2.8では、Intel GPU向けにXCCLバックエンドのネイティブ統合が実現され、分散トレーニングのサポートが強化されました。この新機能により、開発者はIntelハードウェア上でAIワークロードをスケールさせるためのシームレスな体験を得られます。これまでPyTorchにはIntel GPUでの分散トレーニングの組み込み方法がなく、ユーザーは高度な機能を十分に活用できませんでしたが、XCCLバックエンドの導入によりこのギャップが解消されました。XCCLは、NCCLやGlooなどの既存のバックエンドと一貫性のある分散APIを提供し、信頼性を確保するためにテストが再構築されました。PyTorch 2.8では、Intel XPUデバイス上で自動的にXCCLがデフォルトバックエンドとして選択され、ユーザーは簡単に利用できます。Argonne国立研究所との共同作業により、Auroraスーパーコンピュータを使用して気候モデリングや薬剤発見などの課題に取り組むことが可能になりました。 • PyTorch 2.8でIntel GPU向けにXCCLバックエンドが統合された。 • 分散トレーニングのサポートが強化され、開発者はシームレスな体験を得られる。 • XCCLバックエンドの導入により、Intel GPUでの高度な機能が利用可能になった。 • XCCLはNCCLやGlooと一貫性のある分散APIを提供し、信頼性を確保している。 • PyTorch 2.8では、Intel XPUデバイス上で自動的にXCCLがデフォルトバックエンドとして選択される。 • Argonne国立研究所のAuroraスーパーコンピュータを利用して、AIによる科学研究が進められている。
Disaggregated Inference at Scale with PyTorch & vLLM
この記事では、PyTorchとvLLMの統合による生成AIアプリケーションの効率化について説明しています。特に、Prefill/Decode Disaggregationという技術が、レイテンシとスループットの両面で生成AI推論の効率を向上させることに焦点を当てています。この技術はMetaの内部推論スタックで実装され、大規模なトラフィックに対応しています。MetaとvLLMチームの協力により、Metaの内部LLM推論スタックと比較してパフォーマンスが向上しました。PrefillとDecodeの処理を分離することで、リソースの効率的な利用が可能になり、レイテンシとスループットの改善が実現されます。記事では、TCPネットワーク上での最適なP/D分離サービスを実現するための3つの主要コンポーネントについても触れています。 • PyTorchとvLLMの統合により生成AIアプリケーションの効率化が図られている。 • Prefill/Decode Disaggregation技術がレイテンシとスループットを向上させる。 • Metaの内部推論スタックでの実装により、大規模トラフィックに対応可能。 • MetaとvLLMの協力により、パフォーマンスが向上した。 • PrefillとDecodeの処理を分離することで、リソースの効率的な利用が実現される。 • TCPネットワーク上での最適なP/D分離サービスを実現するための3つの主要コンポーネントがある。
Yellow Teaming on Arm: A look inside our responsible AI workshop
この記事では、著者がベルリンで開催されたWeAreDevelopers World Congressで行った「責任あるAI」に関するワークショップについて述べています。ワークショップでは、Yellow Teamingフレームワークを使用して製品設計における隠れた影響を明らかにし、Armの技術を用いて実践的な体験を提供しました。参加者は、ArmのGraviton 4上で動作するPyTorchベースの大規模言語モデル(LLM)アシスタントを構築し、機能設計のブレインストーミング用のチャットボットを作成しました。Yellow Teamingは、製品アイデアの意図しない結果を事前に浮き彫りにする手法であり、参加者はこのプロセスを通じて、AIが自分の仕事にどのように関連するかを理解する手助けを得ました。ワークショップでは、Armの最適化を活用したモデルのデプロイや、パフォーマンス向上のための技術的なポイントも紹介されました。 • Yellow Teamingフレームワークを使用して製品設計の隠れた影響を明らかにする • ArmのGraviton 4上でPyTorchベースのLLMアシスタントを構築 • 参加者は責任あるAIについての理解を深めた • AIの関連性を探るための具体的な手法を学んだ • ArmのKleidiAI INT4最適化カーネルを使用してパフォーマンスを向上させた • 生成速度が32トークン/秒に達し、初回トークン生成時間が0.4秒に短縮された • プロンプトインジェクションのリスクについての認識が高まった
Fast 2-Simplicial Attention: Hardware-Efficient Kernels in TLX
この記事では、2-Simplicial Attentionアルゴリズムのハードウェアに最適化された設計と、TLX(Triton Low-Level Extensions)を用いたカーネルの再実装について説明しています。2-Simplicial Attentionは、クエリと2つのキーセットおよび2つの値セット間の相互作用をモデル化するためにトリリニア関数を使用し、従来のドットプロダクトアテンションよりもトークン効率を向上させることができます。NVIDIA H100 GPU上で、588 Tensor Core BF16 TFLOPsを達成し、元のTritonカーネルの337ピークTFLOPsに対して約1.74倍のスピードアップを実現しました。また、2次元スライディングウィンドウを導入することで、計算コストを軽減しつつ、2-Simplicial Attentionの表現力を保持しています。TLXは、GPUカーネルの実行に対するハードウェアに近い制御を提供し、開発者の生産性を向上させるための言語拡張です。 • 2-Simplicial Attentionアルゴリズムのハードウェア最適化設計を紹介 • TLXを使用してカーネルを再実装し、588 Tensor Core BF16 TFLOPsを達成 • 元のTritonカーネルに対して約1.74倍のスピードアップを実現 • トリリニア関数を用いてクエリと2つのキーセット、2つの値セット間の相互作用をモデル化 • 2次元スライディングウィンドウを導入し、計算コストを軽減しつつ表現力を保持 • TLXはGPUカーネルの実行に対するハードウェアに近い制御を提供
PyTorch 2.8+TorchAO: Unlock Efficient LLM Inference on Intel® AI PCs
この記事では、PyTorch 2.8とTorchAOを使用して、Intel® AI PC上での大規模言語モデル(LLM)の効率的な推論を実現する方法について説明しています。Intel® GPU(Arc™シリーズを含む)を活用することで、開発者はローカルでLLMを実行でき、AI機能へのアクセスが向上します。LLMをクライアントデバイスで実行する際の主な課題として、メモリ制約とカーネル効率が挙げられ、PyTorch 2.8ではoneDNNバックエンドやINT4量子化を通じてこれらの問題に対処しています。また、Hugging Faceとの統合により、Transformersモデルのハードウェアアクセラレーションが可能になり、torch.compileを使用することで、グラフ最適化によるデコード速度の向上が実現されています。 • 大規模言語モデル(LLM)の効率的な推論をIntel® AI PCで実現する方法を解説 • Intel® GPUを使用することで、ローカルでのLLM実行が可能になる • メモリ制約とカーネル効率の課題に対処するための最適化手法を紹介 • Hugging Faceとの統合により、Transformersモデルのハードウェアアクセラレーションが実現 • torch.compileを使用して、デコード速度の向上を図る
Accelerating 2K scale pre-training up to 1.28x with TorchAO, MXFP8 and TorchTitan on Crusoe B200 Cluster
この記事では、Crusoe B200クラスターを使用して、TorchAO、MXFP8、TorchTitanを活用した2Kスケールの事前トレーニングの加速について説明しています。MXFP8データ型を用いることで、BF16と比較して1.22倍から1.28倍のトレーニング加速が実現され、1856 GPUスケールでも損失曲線の同等性が確認されました。MXFP8は、Microsoftによって開発され、OCP標準となったもので、32要素ごとにスケーリングファクターを持つことで高精度な量子化を実現しています。トレーニング結果は、BF16とMXFP8の間でほぼ同じ最終結果を示し、MXFP8がわずかに優れた収束を示すことが確認されました。 • Crusoe B200クラスターでのトレーニング加速の実施 • MXFP8データ型を使用した場合の1.22倍から1.28倍の加速 • BF16とMXFP8の損失曲線の同等性 • MXFP8は32要素ごとのスケーリングファクターを持つ • トレーニング結果はBF16とMXFP8でほぼ同じで、MXFP8がわずかに優れた収束を示す
A Primer on LLM Post-Training
この記事では、大規模言語モデル(LLM)のポストトレーニングについて解説しています。ポストトレーニングは、モデルが人間の好む方法で応答し、推論する能力を教える重要なプロセスです。これは、ユーザーとの会話を行うための基本的なルールをモデルに教えるもので、事前トレーニングとは異なり、構造化されていないデータを使用して次の単語を予測するだけではありません。ポストトレーニングでは、システムプロンプトや監視付きファインチューニングを通じて、モデルに優先される基本ルールを課すことができます。また、ポストトレーニングのデータフォーマットについても説明されており、ユーザーとの対話がどのように行われるかが示されています。 • ポストトレーニングは、LLMが人間の好む応答をするための重要なプロセスである。 • ポストトレーニングは、ユーザーとの会話における基本的なルールをモデルに教える。 • 事前トレーニングは次の単語を予測するだけで、構造化されていないデータを使用する。 • ポストトレーニングでは、システムプロンプトや監視付きファインチューニングを使用して基本ルールを課す。 • ポストトレーニングのデータフォーマットにより、ユーザーとの対話が可能になる。
DRAMA Model Inference Efficiency Boosted by 1.7x-2.3x
DRAMAモデルの推論効率が1.7倍から2.3倍向上したことが報告されており、特に可変長シーケンスにおいてLLMベースのエンコーダーとしての生産準備が整った。DRAMAは、プルーニングされたLLaMAバックボーンを活用した密な検索モデルであり、さまざまなバージョンで良好なパフォーマンスを示している。特にDRAMA-baseは、コンパクトなサイズにもかかわらず、英語および多言語の検索タスクで強力なパフォーマンスを発揮する。しかし、実装にかかる高コストが普及の障壁となっていた。これを解決するために、ネストされたテンソル(NJT)を使用してモデルを最適化し、推論効率を大幅に改善した。NJTは、可変長シーケンスデータを効率的に処理するためのPyTorchのサブクラスであり、パディングの無駄を避けることができる。 • DRAMAモデルの推論効率が1.7倍から2.3倍向上した。 • NJT(ネストされたジャグドテンソル)を使用してモデルを最適化した。 • DRAMAはLLaMAバックボーンを活用した密な検索モデルである。 • DRAMA-baseはコンパクトなサイズでありながら、英語および多言語の検索タスクで強力なパフォーマンスを示す。 • NJTは可変長シーケンスデータを効率的に処理し、パディングの無駄を避ける。
ZenFlow: Stall-Free Offloading Engine for LLM Training
ZenFlowは、2025年夏に導入されたDeepSpeedの新しい拡張機能で、大規模言語モデル(LLM)のトレーニング用に設計されたスタールフリーオフロードエンジンです。オフロードは、増大するLLMサイズによるGPUメモリ圧力を軽減するための一般的な手法ですが、従来のオフロードフレームワークはCPUとGPUの性能差により、GPUのスタールが発生する問題があります。ZenFlowは、重要度に基づくパイプライニングを用いてGPUとCPUの更新を分離し、CPUの作業とPCIe転送をGPU計算と完全に重ね合わせることで、85%以上のスタール削減と最大5倍のスピードアップを実現します。これにより、オフロードのメモリ利点を享受しつつ、遅いハードウェアによるトレーニング速度の低下を防ぎます。ZenFlowは、即時にGPU更新される重要な勾配を優先し、残りは非同期でCPUにオフロードすることで、スタールを排除し、シングルGPUおよびマルチGPU環境でのハードウェア利用率を高めます。 • ZenFlowは、DeepSpeedの新しいオフロードエンジンで、LLMトレーニングのスタールを排除することを目的としている。 • 重要度に基づくパイプライニングを使用して、GPUとCPUの更新を分離し、CPU作業とPCIe転送をGPU計算と重ね合わせる。 • 85%以上のスタール削減と最大5倍のスピードアップを実現し、トレーニング速度を向上させる。 • 即時にGPU更新される重要な勾配を優先し、低優先度の勾配は非同期でCPUにオフロードする。 • モデルの精度を維持し、DeepSpeedとのシームレスな統合を実現。
Accelerating MoE’s with a Triton Persistent Cache-Aware Grouped GEMM Kernel
この記事では、Mixture-of-Experts(MoE)モデルのトレーニングと推論を行うための最適化されたTriton BF16 Grouped GEMMカーネルについて説明しています。Grouped GEMMは、入力テンソルの複数のスライスに対して独立したGEMMを単一のカーネル呼び出しで適用します。従来のPyTorch実装では、これらのGEMMはグループごとにforループで実行されていましたが、提案されたカーネルはNVIDIA H100 GPU上でDeepSeekv3のトレーニング時に最大2.62倍の速度向上を実現します。GEMMはLLMワークロードにおいて基本的な演算であり、MoEモデルではトークンが異なる専門家に動的にルーティングされるため、多くの独立したGEMMが発生します。Grouped GEMMは、これらの小さなGEMMを一つのカーネル呼び出しで実行することで、起動オーバーヘッドを削減し、GPUの利用効率を向上させます。 • MoEモデルのトレーニングと推論を最適化するためのTriton BF16 Grouped GEMMカーネルを提案 • Grouped GEMMは複数のスライスに対して独立したGEMMを適用し、従来のforループ実装よりも効率的 • NVIDIA H100 GPU上で最大2.62倍の速度向上を実現 • GEMMはLLMワークロードにおいて重要な演算であり、効率がモデルの速度に影響を与える • Persistent Kernel Designを用いて、スレッドブロックを「生かしたまま」にして計算を行うことで、起動オーバーヘッドを削減し、キャッシュの再利用を改善
PyTorch Wheel Variants, the Frontier of Python Packaging
この記事では、PyTorchのパッケージングに関する問題と、Wheel Variantsの導入について説明しています。PyTorchは、AI製品の開発と展開において主要な機械学習フレームワークですが、パッケージングの難しさがユーザーにとっての大きな課題となっています。特に、異なるハードウェア向けにコンパイルされたPyTorchのインストール手順は複雑で、多くのステップを要します。これに対処するため、PyTorch 2.8ではWheel Variantsの実験的サポートが開始され、ユーザーのハードウェアに基づいて最適なPyTorchのバリアントを自動的にインストールできる機能が提供されます。この新しいアプローチは、Pythonパッケージングの未来において重要な役割を果たすと期待されています。 • PyTorchのパッケージングは難しく、特に異なるハードウェア向けのインストールが複雑である。 • Wheel Variantsは、ユーザーのハードウェアに基づいて最適なPyTorchのバリアントを自動的にインストールする機能を提供する。 • 現在のインストール手順は多くのステップを要し、ユーザーにとってフラストレーションの原因となっている。 • Wheel Variantsは、特定のハードウェアとソフトウェアのサポートを明示するための新しい方法として期待されている。 • この機能は実験的であり、PEPプロセスを通じて開発が進められている。
PyTorch Day China Recap
2025年6月7日、北京で開催されたPyTorch Day Chinaでは、PyTorch Foundationと北京人工知能アカデミー(BAAI)が共催し、16の講演が行われ、各セッションには平均160人が参加した。PyTorch Foundationのマット・ホワイト氏は、オープンソースAIの推進に対するコミットメントを強調し、設立から2年で30名のメンバーを持つ団体に成長したことを報告した。新たにvLLMとDeepSpeedがFoundationの傘下プロジェクトとして加わり、BAAIのオープンソースプロジェクトFlagGemsもPyTorchエコシステムに参加した。また、PyTorch大使プログラムが開始され、1ヶ月で200件以上の応募があった。Yonghua Lin氏は、さまざまなAIチップ上での大規模モデルの運用について、FlagOSという統一されたオープンソースシステムソフトウェアスタックを紹介し、効率性と互換性に優れた性能を示した。HuggingFaceのTiezhen Wang氏は、700,000以上のPyTorchモデルをホストするHuggingFace Hubの機能を説明し、データセットの視覚化やSQLクエリ機能を提供することを強調した。ByteDanceのYuxuan Tong氏は、エージェントタスク向けのオープンソース大規模LLM強化学習フレームワークverlを紹介し、プログラミングの柔軟性と効率性のバランスを取ることの重要性を述べた。 • PyTorch Day Chinaは2025年6月7日に北京で開催され、16の講演が行われた。 • PyTorch FoundationはオープンソースAIの推進にコミットし、設立から2年で30名のメンバーを持つ団体に成長した。 • 新たにvLLMとDeepSpeedがFoundationの傘下プロジェクトとして加わった。 • BAAIのFlagGemsもPyTorchエコシステムに参加した。 • HuggingFace Hubは700,000以上のPyTorchモデルをホストし、さまざまな機能を提供している。 • verlは大規模LLM強化学習フレームワークで、プログラミングの柔軟性と効率性を両立させる。
Bringing Generative AI to the Masses with ExecuTorch and KleidiAI
ExecuTorch 0.7はKleidiAIをデフォルトで有効にし、Arm CPU上での自動加速を実現します。これにより、3~5年前のスマートフォンやRaspberry Pi 5を含む数百万の既存デバイスで、Generative AI(GenAI)が高性能で動作可能になります。プライベート音声アシスタントやメッセージ要約、ローカルコード生成AIコパイロットなどのオンデバイスユースケースが、クラウドなしで実現可能です。ArmのSME2発表は、KleidiAIが次世代AIの加速レイヤーとしての役割を強調しています。KleidiAIは、XNNPackやMediaPipe、MNN、ONNX RuntimeなどのエッジAIフレームワークに組み込まれ、開発者によるコード変更なしで大幅な性能向上を実現します。ExecuTorch 0.7ベータ版では、KleidiAIがデフォルトで有効になり、最新のArm CPUアーキテクチャに基づくデバイスや、古い世代のスマートフォンでも自動加速が提供されます。これにより、モデルの起動が速く、レイテンシが低く、メモリフットプリントが小さくなり、統合の障害がなくなります。 • ExecuTorch 0.7がKleidiAIをデフォルトで有効にし、Arm CPU上での自動加速を実現 • Generative AIが数百万の既存デバイスで高性能に動作可能 • プライベート音声アシスタントやメッセージ要約などのオンデバイスユースケースが実現 • KleidiAIがエッジAIフレームワークに組み込まれ、開発者によるコード変更なしで性能向上 • ExecuTorch 0.7ベータ版でKleidiAIがデフォルトで有効になり、自動加速が提供される • モデルの起動が速く、レイテンシが低く、メモリフットプリントが小さくなる
vLLM Beijing Meetup: Advancing Large-scale LLM Deployment
2025年8月2日、Tencentの北京本社で開催されたvLLM Beijing Meetupでは、260人の開発者や業界専門家が集まり、vLLMエコシステムの急成長とその実用的な能力を目の当たりにしました。イベントでは、vLLMのコアチームやTencent、Huawei、Ant Group、ByteDanceなどの企業が、効率性、柔軟性、スケーラビリティに関する最新の実践と進展を共有しました。特に、vLLMの大規模分散推論、マルチモーダルサポート、スケジューリング戦略の改善、拡張性についての発表がありました。また、TencentのChao Zhangは、vLLMを基にしたカスタマイズされたPD(Prefill-Decode)分解フレームワークを紹介し、推論効率を大幅に向上させた事例を示しました。さらに、Ant Groupのエンジニアは、DeepSeekの推論性能を10倍向上させるための最適化戦略について詳しく解説しました。 • 260人の開発者や専門家が集まったvLLM Beijing Meetupの開催 • vLLMの効率性、柔軟性、スケーラビリティに関する最新の実践と進展の共有 • TencentのChao ZhangによるPD分解フレームワークの紹介と推論効率の向上 • vLLM AscendプロジェクトによるAscend AIハードウェアプラットフォームへの適応 • DeepSeekの推論性能を10倍向上させるための最適化戦略の解説
Advancing Low-Bit Operators in PyTorch and ExecuTorch: Dynamic Kernel Selection, KleidiAI, and Quantized Tied Embeddings
この記事では、PyTorchとExecuTorchにおける低ビット演算子の進展について説明しています。主な改善点として、動的カーネル選択、ArmのKleidiAIライブラリとの統合、量子化された結合埋め込みのサポートが挙げられます。これにより、PyTorchでの低ビット推論のパフォーマンスが向上し、特にExecuTorchを使用したデバイス上での効率的な実行が実現されます。KleidiAIカーネルを使用することで、M1 Mac上で373トークン/秒を超える2倍以上のプリフィルパフォーマンスの向上が見られました。動的カーネル選択は、パックされた重みの形式やCPUの機能に基づいて最適なカーネルを自動的に選択します。また、KleidiAIとの統合により、最適化されたマイクロカーネルが利用可能になり、パフォーマンスが向上します。最後に、量子化された結合埋め込みとlm_headカーネルについても言及されており、特に小型モデルにおいて重要な役割を果たしています。 • 低ビット推論のパフォーマンス向上のための3つの主要な改善点がある • 動的カーネル選択により、最適なカーネルが自動的に選ばれる • KleidiAIライブラリとの統合により、Arm CPU向けの最適化されたマイクロカーネルが利用可能 • ExecuTorchを使用することで、M1 Mac上で373トークン/秒を超えるパフォーマンス向上が実現 • 量子化された結合埋め込みは、小型LLMにおいて重要な役割を果たす
PyTorch 2.8 Release Blog
PyTorch 2.8のリリースが発表され、主な新機能として、第三者のC++/CUDA拡張用の安定したlibtorch ABI、Intel CPU上での高性能な量子化LLM推論、プラットフォーム依存のホイールを公開するためのWheel Variants機能が追加されました。特に、量子化されたLLMの推論はストレージとメモリを節約し、推論のレイテンシを低減します。また、ROCm 7の新しいgfx950アーキテクチャに対する機能サポートや、モデルのコンパイルとエクスポートのための制御フロー演算子も導入されました。PyTorch 2.8は585人の貢献者からの4164コミットで構成されており、コミュニティへの感謝が表明されています。 • 第三者のC++/CUDA拡張用の安定したlibtorch ABIが導入された。 • Intel CPU上での高性能な量子化LLM推論が可能になった。 • Wheel Variants機能により、プラットフォーム依存のホイールを公開できるようになった。 • ROCm 7のgfx950アーキテクチャに対する機能サポートが追加された。 • 制御フロー演算子が導入され、モデルのコンパイルとエクスポートが可能になった。
PyTorch on Kubernetes: Kubeflow Trainer Joins the PyTorch Ecosystem
Kubeflow TrainerがPyTorchエコシステムに統合され、Kubernetes上でのPyTorchの実行が信頼性、スケーラビリティ、コミュニティサポートを持つソリューションとして提供されることが発表されました。Kubeflow Trainerは、AIモデルのスケーラブルで分散したトレーニングを可能にし、大規模言語モデル(LLM)のファインチューニングに特化しています。主な機能には、Kubernetesの複雑さを簡素化するAPI、AI実践者向けのPython SDK、LLMのファインチューニング用のブループリント、GPUの最適化、先進的なスケジューリング機能、MPIワークロードの加速、耐障害性の向上が含まれます。これにより、AI実践者はインフラの詳細を気にせずにPyTorchモデルの開発に集中でき、プラットフォーム管理者はリソースの最大活用とコスト効率を実現できます。 • Kubeflow TrainerがPyTorchエコシステムに統合されたことにより、Kubernetes上でのPyTorchの実行が容易になる。 • Kubeflow TrainerはAIモデルのスケーラブルなトレーニングを可能にし、特に大規模言語モデルのファインチューニングに特化している。 • Kubernetesの複雑さを簡素化するAPIが提供され、AI実践者はインフラの詳細を気にせずに開発に集中できる。 • Python SDKにより、Kubernetes APIとの直接的なやり取りが抽象化され、ユーザーはPyTorchモデルの開発に専念できる。 • GPUの最適化により、大規模データを効率的に分散GPUにストリーミングできる。 • 先進的なスケジューリング機能により、必要なリソースがトレーニングジョブの開始前に確保される。 • 耐障害性の向上により、AIワークロードの信頼性と効率が改善される。
PyTorch Conference 2025 Schedule Announcement
PyTorch Conference 2025のスケジュールが発表され、2025年10月22日から23日にサンフランシスコで開催される。このイベントでは、AIの未来を形作るリーダーたちからの洞察や、ハンズオンの技術セッションが提供される。主な内容には、モバイルおよび組み込みアプリケーション開発者向けのExecuTorch 1.0、誰でも簡単に利用できるvLLM、PyTorchエコシステム全体でのモデル定義の標準化を目指すvLLM Transformers、AMD GPUを用いた大規模な効率的MoE事前トレーニング、強化学習における運の最大化、分散エッジクラウドにおける生成AIの活用などが含まれる。 • PyTorch Conference 2025は2025年10月22日から23日にサンフランシスコで開催される。 • イベントではAIの未来に関するセッションやハンズオン技術コンテンツが提供される。 • ExecuTorch 1.0はモバイルおよび組み込みアプリケーション開発者向けの一般提供状況を発表する。 • vLLMは誰でも簡単に利用できるLLMサービングを提供する。 • vLLM TransformersはPyTorchエコシステム全体でのモデル定義の標準化を目指す。 • AMD GPUを用いた効率的MoEの大規模事前トレーニングが行われる。 • 強化学習における運の最大化に関するセッションがある。 • 分散エッジクラウドにおける生成AIの活用方法が紹介される。
Enabling Fully Sharded Data Parallel (FSDP2) in Opacus
Opacusは、大規模モデルのプライベートトレーニングをサポートするために、Fully Sharded Data Parallel (FSDP2)を導入しました。これにより、モデル、勾配、オプティマイザの状態を複数のGPUワーカーに分散させることで、メモリ使用量を効率的に管理し、大規模モデルのトレーニングを可能にします。FSDPは、モデルのパラメータをシャーディングすることで、トレーニングに必要なメモリフットプリントを大幅に削減します。さらに、Fast Gradient Clipping (FGC)やGhost Clipping (GC)を活用することで、サンプルごとの勾配を生成せずに勾配クリッピングを実現し、メモリ効率を向上させています。これにより、Opacusは中規模から大規模モデルのプライベートトレーニングを支援するための新たな並列化戦略を提供します。 • Opacusは大規模モデルのプライベートトレーニングをサポートするためにFSDP2を導入した。 • FSDPはモデル、勾配、オプティマイザの状態を複数のGPUに分散させることでメモリ効率を向上させる。 • Fast Gradient Clipping (FGC)とGhost Clipping (GC)を使用して、メモリフットプリントを削減しつつ勾配クリッピングを実現。 • FSDPは1D、2D、4Dの並列処理戦略を用いて、モデルサイズに応じたトレーニングを可能にする。 • FSDPの導入により、Opacusは中規模から大規模モデルのトレーニングを効率的に支援できる。
Reducing Storage Footprint and Bandwidth Usage for Distributed Checkpoints with PyTorch DCP
PyTorch Distributed Checkpointing (DCP)は、分散トレーニング環境におけるモデルチェックポイントの管理に役立つツールです。この記事では、DCPのモジュール設計を活用して圧縮を統合し、チェックポイントサイズを22%削減する方法を紹介します。大規模な分散チェックポイントは、ストレージの要求や帯域幅コストが高くなるため、圧縮が重要な解決策となります。zstd圧縮アルゴリズムを使用し、DCPのStorageWriterコンポーネントをカスタマイズして、ストレージへのデータ書き込みを最適化しました。具体的には、_FileSystemWriterクラスを拡張し、StreamTransformExtensionを利用してデータの変換を行います。これにより、効率的なチェックポイント管理が可能になります。 • PyTorch DCPは分散トレーニング環境でのモデルチェックポイント管理に特化したツールである。 • DCPのモジュール設計により、開発者は特定の要件に応じてコンポーネントをカスタマイズできる。 • 圧縮を用いることで、チェックポイントサイズを22%削減することが可能である。 • zstd圧縮アルゴリズムを選択し、効率的な圧縮を実現した。 • StorageWriterコンポーネントをカスタマイズし、データの書き込みを最適化する方法を示している。
PyTorch + vLLM = ♥️
この記事では、PyTorchとvLLMの統合がAIエコシステムにおいて重要であり、特に生成AIアプリケーションにおいて両者がどのように活用されているかを説明しています。PyTorch Foundationの傘下に移行したことで、さまざまな顧客からのサポートを受けており、vLLMはPyTorchのエコシステムを活用してイノベーションを加速しています。具体的には、torch.compileやTorchAO、FlexAttentionなどのプロジェクトが協力し、複雑な並列処理や異種ハードウェアのサポートを行っています。これにより、Llamaモデルなどの最適化や高性能推論が可能になり、開発者にとっての利便性が向上しています。さらに、vLLMはTorchTitanやTorchTuneを使用して、量子化モデルのトレーニングからデプロイまでのワークフローをシームレスに実現しています。 • PyTorchとvLLMは生成AIアプリケーションでの使用が増加している。 • PyTorch Foundationの傘下に移行し、さまざまな顧客からのサポートを受けている。 • vLLMはtorch.compileを使用してモデルのパフォーマンスを最適化している。 • TorchAOはvLLMでの量子化ソリューションとして公式にサポートされている。 • FlexAttentionがvLLMに統合され、より効率的な注意機構を提供している。
FlagGems Joins the PyTorch Ecosystem: Triton-Powered Operator Library for Universal AI Acceleration
FlagGemsは、PyTorchエコシステムに参加したTritonを活用したオペレーターライブラリで、AI計算の民主化を目指しています。180以上のPyTorch互換オペレーターを提供し、開発者がさまざまなハードウェアバックエンドに最適化されたカーネルを簡単に展開できるように設計されています。FlagGemsは、ATenオペレーター呼び出しをインターセプトし、バックエンド固有のTriton実装を提供することで、代替GPUやドメイン特化型アクセラレーターのサポートを容易にします。自動コード生成機能を持ち、効率的なカーネルを生成することが可能です。FlagGemsは、PyTorchのネイティブオペレーター実装に対してもパフォーマンスの向上を示しており、開発者にとって強力なツールとなるでしょう。 • FlagGemsは、AI計算の民主化を目指すTritonを活用したPyTorchオペレーターライブラリである。 • 180以上のPyTorch互換オペレーターを提供し、開発者が簡単に最適化されたカーネルを展開できる。 • ATenオペレーター呼び出しをインターセプトし、バックエンド固有のTriton実装を提供する。 • 自動コード生成機能により、効率的なカーネルを生成できる。 • FlagGemsは、PyTorchのネイティブオペレーター実装に対してパフォーマンスの向上を示している。
Presenting Flux Fast: Making Flux go brrr on H100s
この記事では、Flux Fastという新しい手法を用いて、Flux.1-SchnellおよびFlux.1-DevモデルのパフォーマンスをH100 GPU上で約2.5倍向上させる方法を紹介しています。最適化には、主にPyTorchのネイティブコードを使用し、Diffusersライブラリのパイプラインをtorch.compileに適した形に保つことが含まれています。具体的な最適化手法としては、CUDAグラフの利用、注意計算のためのq,k,vプロジェクションの統合、デコーダ出力のためのtorch.channels_lastメモリ形式の使用、Flash Attention v3の導入、動的float8活性化量子化などが挙げられます。また、最適化の過程でCPUとGPU間の同期ポイントを排除することが重要であることも強調されています。 • Flux.1-SchnellおよびFlux.1-Devモデルのパフォーマンスを約2.5倍向上させる手法を紹介 • 最適化には主にPyTorchのネイティブコードを使用 • CUDAグラフを利用してカーネルの起動を最適化 • 注意計算のためのq,k,vプロジェクションの統合が重要 • CPUとGPU間の同期ポイントを排除することがパフォーマンス向上に寄与する • FP8量子化は画質にわずかな影響を与えるが、他の最適化は画質を維持する
Fault Tolerant Llama: training with 2000 synthetic failures every ~15 seconds and no checkpoints on Crusoe L40S
この記事では、torchftとtorchtitanを使用して、極端な合成障害率でのモデルのトレーニングを実施し、フォールトトレラントトレーニングの信頼性と正確性を証明することを目的としています。具体的には、1200回の障害を経てトレーニング損失を測定し、チェックポイントなしでのトレーニングを行いました。torchftは、shardedモデルをサポートし、HSDP2を使用してフォールトトレラントDDPを実現します。トレーニングジョブは、グローバルなLighthouseサーバーと各レプリカグループのマネージャーによってリアルタイムで調整され、障害耐性のためのいくつかのアルゴリズムが実装されています。特に、Fault Tolerant HSDPとLocalSGD/DiLoCoが重要な役割を果たします。最後に、300のL40S GPUを使用したクラスター設定についても詳述されています。 • torchftとtorchtitanを使用して、極端な合成障害率でのモデルのトレーニングを実施 • 1200回の障害を経てトレーニング損失を測定 • チェックポイントなしでのトレーニングを行う • torchftはshardedモデルをサポートし、HSDP2を使用してフォールトトレラントDDPを実現 • トレーニングジョブはLighthouseサーバーとマネージャーによって調整される • Fault Tolerant HSDPとLocalSGD/DiLoCoのアルゴリズムが実装されている • 300のL40S GPUを使用したクラスター設定について詳述
PyTorch Docathon 2025: Wrap Up
PyTorch Docathon 2025が6月3日から15日まで開催され、150人以上の参加者が長年のドキュメント問題の解決に貢献しました。このイベントでは、2つのPyTorchリポジトリで60件以上のプルリクエストがマージされました。特に優れた貢献をした参加者には特別な感謝が示され、上位の貢献者が表彰されました。PyTorchチームは、参加者の努力がAIコミュニティを革新していると強調し、今後の活動を期待しています。 • 150人以上の参加者がドキュメント問題の解決に貢献した • 60件以上のプルリクエストがマージされた • 特に優れた貢献者が表彰された • 参加者の努力がAIコミュニティを革新している • 今後の活動への期待が示された
DeepNVMe: Affordable I/O scaling for Deep Learning Applications
DeepNVMeは、ディープラーニング(DL)アプリケーションにおけるI/Oボトルネックを解決するための最適化スイートで、2024年夏に導入されました。主にローカルNVMe SSD、NVIDIA Magnum IO GPUDirect Storage、Linux非同期I/Oを活用し、I/OバウンドのDLワークロードに対して大幅な速度向上を実現します。最近のアップデートでは、FastPersistモデルチェックポイント作成とSGLang推論への適用範囲の拡大、PCIe Gen4からGen5 NVMe SSDへのアップグレードによるI/Oパフォーマンスのスケーリング、CPU専用環境やオフセットベースのI/O操作、テンソルデータ型キャスティングへの対応が含まれています。FastPersistは、モデルチェックポイントの作成を迅速化し、ZeRO-Inferenceは生成AIへのアクセスを民主化します。これにより、数百億のパラメータを持つ大規模モデルの推論を1つのGPUで実行可能にします。 • DeepNVMeはディープラーニングのI/Oボトルネックを解決するための最適化スイートである。 • FastPersistはモデルチェックポイント作成のオーバーヘッドを軽減し、20倍以上の速度向上を実現する。 • ZeRO-Inferenceは、GPUコストを削減し、数百億のパラメータを持つモデルの推論を1つのGPUで可能にする。 • DeepNVMeは、ローカルNVMe SSDやNVIDIA GPUDirect Storageを活用してI/O性能を向上させる。 • 最新のAzure SKUでのZeRO-Inferenceのパフォーマンスは、より高速なNVMe SSDにスケールする。
ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization
ParetoQは、非常に低ビットのLLM(大規模言語モデル)量子化におけるスケーリング法則を再考するためのアルゴリズムです。従来の低ビットスケーリング法則に対する結論を、より良い量子化スキームの設計とトレーニングの改善によって大幅に強化できることを示しています。ParetoQは、バイナリ、テラリ、2ビットから4ビットの量子化を統一する初のアルゴリズムであり、すべてのビット幅で最先端のモデルを生成します。特に、バイナリ量子化は精度を大きく損なう一方で、テラリ、2ビット、3ビットの量子化は性能が同等で、4ビットをしばしば上回ります。ParetoQはPyTorchモデルに基づいており、Hugging FaceでMobileLLMの低ビットモデルコレクションを公開しています。ユーザーはtorchaoを通じてParetoQを利用し、量子化パラメータを最適化して精度と圧縮のトレードオフを調整できます。 • ParetoQは低ビット量子化におけるスケーリング法則を再考するアルゴリズムである。 • バイナリ、テラリ、2ビットから4ビットの量子化を統一する。 • 最先端のモデルをすべてのビット幅で生成し、従来の手法を上回る。 • バイナリ量子化は精度を大きく損なうが、テラリ、2ビット、3ビットは性能が同等である。 • ユーザーはtorchaoを通じてParetoQを利用し、量子化パラメータを最適化できる。
HuggingFace Safetensors Support in PyTorch Distributed Checkpointing
PyTorch Distributed Checkpointing (DCP)は、HuggingFaceのsafetensorsフォーマットとの互換性を向上させるための取り組みを行っている。HuggingFaceは推論やファインチューニングで広く使用されており、DCPはこのフォーマットをネイティブにサポートすることで、ユーザーがチェックポイントを簡単に保存・読み込みできるようにしている。torchtuneはこの変更の最初の顧客であり、DCPのAPIを使用することで、HuggingFaceから直接モデルの重みを読み書きできるようになり、ユーザー体験が向上した。DCPは、HuggingFaceのsafetensorsメタデータがDCPメタデータと同じレベルの情報を提供しないため、分散チェックポイントのサポートが現在は不十分であるが、将来的にはこの機能をネイティブにサポートする計画がある。 • HuggingFaceのsafetensorsフォーマットをDCPがネイティブにサポートすることで、チェックポイントの保存と読み込みが簡素化される。 • torchtuneはDCPの最初の顧客で、HuggingFaceから直接モデルの重みを読み書きできるようになり、ユーザー体験が向上した。 • DCPのAPIを使用することで、ユーザーはチェックポイントをローカルストレージにダウンロード・アップロードする必要がなくなる。 • HuggingFaceStorageReaderとHuggingFaceStorageWriterを使用して、fsspecに基づくパスでsafetensorsフォーマットを読み書きできる。 • 将来的には、DCPがHuggingFaceのsafetensorsチェックポイントの分散読み込みと保存をサポートする計画がある。
Introducing the PyTorch Ecosystem Working Group and Project Spotlights
PyTorchエコシステムワーキンググループは、オープンソースのAIプロジェクトを統合し、PyTorchを基盤としたプロジェクトを支援することを目的としている。2025年に設立され、成熟したプロジェクトをコミュニティに紹介する役割を担っている。ワーキンググループは、機能要件や測定可能な要件を定義し、リポジトリの構造に関するベストプラクティスを実施している。現在までに21件のプロジェクトが提出されており、コミュニティからの反響も良好である。新たにSGLangとdocTRがPyTorchエコシステムに加わり、SGLangは大規模言語モデルの高速サービングエンジンであり、docTRはOCR機能をアプリケーションに統合するためのプロジェクトである。 • PyTorchエコシステムワーキンググループは、オープンソースAIプロジェクトを統合することを目的としている。 • ワーキンググループは、成熟したプロジェクトをコミュニティに紹介する役割を担っている。 • 機能要件や測定可能な要件を定義し、リポジトリの構造に関するベストプラクティスを実施している。 • 現在までに21件のプロジェクトが提出され、コミュニティからの反響が良好である。 • 新たにSGLangとdocTRがPyTorchエコシステムに加わった。 • SGLangは大規模言語モデルの高速サービングエンジンで、効率的なサービングを提供する。 • docTRはOCR機能をアプリケーションに統合するためのプロジェクトで、テキスト検出と認識を行う。
Open Source AI is Transforming the Economy—Here’s What the Data Shows
2025年の中頃に近づく中、オープンソースAI(OSAI)がビジネスや経済、産業を変革する可能性が広く認識されている。Metaによる委託プロジェクトで、LF ResearchはOSAIがどのように経済や労働力に影響を与えているかを調査した。調査結果によると、OSAIの採用率は非常に高く、63%の企業が積極的に利用しており、89%のAIを導入している組織がOSAIをインフラに組み込んでいる。コストの低さが大きな要因で、2/3の組織がOSAIの方が安価であると回答。オープンソースはイノベーションや起業を促進し、開発者や研究者の協力を得ることで高品質なモデルの開発を加速させる。AIツールの導入は開発者の働き方を変え、プロジェクト管理にかける時間を減少させたが、AIによる大規模な解雇は見られない。 • オープンソースAIの採用率は高く、63%の企業が利用している。 • 89%のAI導入企業がオープンソースAIをインフラに組み込んでいる。 • コストが低く、2/3の組織がOSAIの方が安価であると認識。 • オープンソースはイノベーションや起業を促進する。 • AIツールの導入により開発者の働き方が変わったが、大規模な解雇は発生していない。
Build Responsible AI Products with your own Yellow Teaming LLM
この記事では、AIシステムを責任を持って構築するための「イエローチーミング」という手法について説明しています。イエローチーミングは、製品のライフサイクルの初期段階から慎重な設計と実装を重視し、意図しない影響を事前に明らかにするプロアクティブなアプローチです。特に、AI採用ツールが特定のデモグラフィックに偏らないようにすることが求められます。PyTorchを用いたLLM(大規模言語モデル)をAWS Graviton4上で動作させるイエローチーミングアシスタントの作成方法も紹介されており、機能設計の意図しないビジネス上の影響を探る手助けをします。イエローチーミングは、製品の決定がもたらす影響を広い視野で分析することで、より良い製品を設計し、企業の利益とユーザーの幸福を促進することができます。 • イエローチーミングは、AIシステムの責任ある構築を促進する手法である。 • この手法は、製品のライフサイクルの初期段階から慎重な設計を重視する。 • PyTorchを使用して、AWS Graviton4上で動作するイエローチーミングアシスタントを作成する方法が示されている。 • イエローチーミングは、意図しない影響を事前に明らかにすることで、より良い製品を設計する助けとなる。 • 従来の製品開発は狭い成功指標に基づくことが多く、他の重要なシグナルを無視する可能性がある。 • イエローチーミングを実施することで、ユーザーや社会に与える影響を評価し、長期的な成功を目指すことができる。
PyTorch Hangzhou Meetup Recap: Exploring the AI Open Source Ecosystem and Cutting-Edge Technology Practices
2025年5月17日に杭州で開催されたPyTorch Meetupでは、約60名の開発者や業界専門家が集まり、PyTorchエコシステムの発展やAI加速技術、業界の実践について議論が行われた。Yikun Jiang氏はPyTorchコミュニティの最新情報を共有し、技術革新やオープンソース技術の実用化を推進する重要性を強調した。HuaweiのPeng Xue氏は、Ascend NPU向けのTorchairという最適化バックエンドを紹介し、メモリ管理や動的形状の最適化について詳述した。さらに、TencentのChao Zhang氏は、大規模モデル推論におけるPrefill/Decode分離技術を発表し、システムのスループット向上を実現した。最後に、HuaweiのChenyi Pan氏は強化学習の加速技術とトレーニング実践について説明し、リソース利用効率を向上させる新しいソリューションを提案した。 • PyTorch Meetupは杭州で開催され、60名の開発者と業界専門家が参加した。 • Yikun Jiang氏がPyTorchコミュニティの最新情報を共有し、オープンソース技術の実用化を推進する重要性を強調した。 • Peng Xue氏はAscend NPU向けのTorchairバックエンドを紹介し、メモリ管理や動的形状の最適化を行った。 • Chao Zhang氏は大規模モデル推論におけるPrefill/Decode分離技術を発表し、システムのスループットを向上させた。 • Chenyi Pan氏は強化学習の加速技術を紹介し、リソース利用効率を向上させる新しいソリューションを提案した。