PyTorch Blog

PyTorch Blog

pytorch.org/blog/
38
Articles
9月20日 05:00
Last updated
No Image

TorchAO Quantized Models and Quantization Recipes Now Available on HuggingFace Hub

PyTorchは、TorchAOチームとUnslothの協力により、Phi4-mini-instruct、Qwen3、SmolLM3-3B、gemma-3-270m-itのネイティブ量子化バリアントを提供しています。これらのモデルは、int4およびfloat8の量子化を活用し、A100、H100、モバイルデバイスで効率的な推論を実現し、bfloat16モデルと比較してモデル品質の劣化を最小限に抑えています。リリースされたモデルは、サーバーおよびモバイルプラットフォーム向けに最適化されており、ユーザーは生産環境での高速モデルの展開が可能です。また、PyTorchのネイティブ量子化を自分のモデルやデータセットに適用するための包括的で再現可能な量子化レシピとガイドも提供されています。これにより、ユーザーはモデルの品質評価やパフォーマンスベンチマークを行うことができます。 • PyTorchが提供する量子化モデルは、Phi4-mini-instruct、Qwen3、SmolLM3-3B、gemma-3-270m-itである。 • int4およびfloat8の量子化を使用し、A100、H100、モバイルデバイスで効率的な推論を実現。 • リリースされたモデルは、サーバーおよびモバイルプラットフォーム向けに最適化されている。 • PyTorchのネイティブ量子化を適用するための再現可能な量子化レシピとガイドが提供されている。 • 量子化により、モデルの速度が最大2倍向上し、メモリ使用量が30-60%削減される。

PyTorch Blog
library tool
No Image

AI Infra Summit at PyTorch Conference

2025年10月21日にサンフランシスコで開催されるAI Infra Summitは、AIの最新の革新を支えるインフラに関する専門家が集まるイベントです。この半日サミットでは、AIの急速な進展を促進するツールやプラットフォームについて議論され、トレーニング前後の処理、ファインチューニング、推論時間のスケーリング、モデル圧縮などの最適化が取り上げられます。参加者は、AIワークロードの効率的なスケーリングやトレーニング・推論の最適化、生成モデル時代のAIインフラの未来についての洞察を得ることができます。プログラムには基調講演、技術講演、パネルディスカッションが含まれ、モデル最適化や大規模トレーニング、新しい実行パラダイムに関心のある人々が集まります。 • AIインフラの最新の革新を支える専門家が集まるイベント • トレーニング前後の処理、ファインチューニング、推論時間のスケーリングなどが議論される • AIワークロードの効率的なスケーリングやトレーニング・推論の最適化についての洞察が得られる • 基調講演や技術講演、パネルディスカッションが行われる • モデル最適化や大規模トレーニングに関心のある人々が集まる

PyTorch Blog
cloud tool
No Image

Experience in Reducing PT2 Compilation Time for Meta Internal Workloads

この記事では、Meta内部のワークロードにおけるPyTorch 2.0(PT2)のコンパイル時間を短縮する取り組みについて説明しています。PT2は、Pythonモデルコードを高性能な機械コードに変換するコンパイルステップを導入しましたが、大規模なモデルでは初期コンパイルがボトルネックとなることがあります。特に、Metaの内部推奨モデルでは、コンパイルに1時間以上かかることもあります。2024年末に、PT2のコンパイルプロセスを詳細に分析し、ボトルネックを特定するためにTlparseを使用しました。分析の結果、Dynamo、AOTInductor、TorchInductorなどの主要コンポーネントにおける時間消費の傾向が明らかになり、特にTorchInductorが67.8%を占めていることが分かりました。これに基づき、コンパイル時間を短縮するための具体的な改善策を特定し、実施しました。 • PT2のコンパイルが大規模モデルでボトルネックとなる問題を解決するための取り組み。 • Tlparseを用いてPT2のコンパイルプロセスを詳細に分析し、ボトルネックを特定。 • Dynamo、AOTInductor、TorchInductorの各コンポーネントの時間消費を分析。 • TorchInductorが67.8%の時間を占めていることが判明。 • コンパイル時間を短縮するために、最も時間を消費する領域の最適化やキャッシュ性能の向上を目指す。

PyTorch Blog
library tool
No Image

High-performance quantized LLM inference on Intel CPUs with native PyTorch

PyTorch 2.8では、Intel Xeonプロセッサ上での高性能な量子化LLM推論が可能になりました。新機能として、libtorch ABIの安定版、Wheel Variant Support、Inductor CUTLASSバックエンドサポートなどが追加され、特に量子化設定が最適化されています。これにより、PyTorchは他のLLMフレームワークと比較しても競争力のある低精度性能を提供します。ユーザーは、AMXサポートのあるX86 CPUを選び、Torchaoの量子化手法を用いてモデルを量子化し、torch.compileを使用して最適化を自動的に適用することで、パフォーマンスを向上させることができます。 • PyTorch 2.8でIntel Xeonプロセッサ上のLLM推論が高性能化された。 • 量子化設定(A16W8、DA8W8、A16W4など)が最適化され、競争力のある性能を実現。 • torch.compileを使用して、量子化モデルのパフォーマンスを向上させることができる。 • ユーザーはAMXサポートのあるX86 CPUを選ぶ必要がある。 • Torchaoの量子化手法を用いてモデルを量子化する必要がある。

PyTorch Blog
library tool
No Image

PyTorch 2.8 Brings Native XCCL Support to Intel GPUs: Case Studies from Argonne National Laboratory

PyTorch 2.8では、Intel GPU向けにXCCLバックエンドのネイティブ統合が実現され、分散トレーニングのサポートが強化されました。この新機能により、開発者はIntelハードウェア上でAIワークロードをスケールさせるためのシームレスな体験を得られます。これまでPyTorchにはIntel GPUでの分散トレーニングの組み込み方法がなく、ユーザーは高度な機能を十分に活用できませんでしたが、XCCLバックエンドの導入によりこのギャップが解消されました。XCCLは、NCCLやGlooなどの既存のバックエンドと一貫性のある分散APIを提供し、信頼性を確保するためにテストが再構築されました。PyTorch 2.8では、Intel XPUデバイス上で自動的にXCCLがデフォルトバックエンドとして選択され、ユーザーは簡単に利用できます。Argonne国立研究所との共同作業により、Auroraスーパーコンピュータを使用して気候モデリングや薬剤発見などの課題に取り組むことが可能になりました。 • PyTorch 2.8でIntel GPU向けにXCCLバックエンドが統合された。 • 分散トレーニングのサポートが強化され、開発者はシームレスな体験を得られる。 • XCCLバックエンドの導入により、Intel GPUでの高度な機能が利用可能になった。 • XCCLはNCCLやGlooと一貫性のある分散APIを提供し、信頼性を確保している。 • PyTorch 2.8では、Intel XPUデバイス上で自動的にXCCLがデフォルトバックエンドとして選択される。 • Argonne国立研究所のAuroraスーパーコンピュータを利用して、AIによる科学研究が進められている。

PyTorch Blog
library tool
No Image

Disaggregated Inference at Scale with PyTorch & vLLM

この記事では、PyTorchとvLLMの統合による生成AIアプリケーションの効率化について説明しています。特に、Prefill/Decode Disaggregationという技術が、レイテンシとスループットの両面で生成AI推論の効率を向上させることに焦点を当てています。この技術はMetaの内部推論スタックで実装され、大規模なトラフィックに対応しています。MetaとvLLMチームの協力により、Metaの内部LLM推論スタックと比較してパフォーマンスが向上しました。PrefillとDecodeの処理を分離することで、リソースの効率的な利用が可能になり、レイテンシとスループットの改善が実現されます。記事では、TCPネットワーク上での最適なP/D分離サービスを実現するための3つの主要コンポーネントについても触れています。 • PyTorchとvLLMの統合により生成AIアプリケーションの効率化が図られている。 • Prefill/Decode Disaggregation技術がレイテンシとスループットを向上させる。 • Metaの内部推論スタックでの実装により、大規模トラフィックに対応可能。 • MetaとvLLMの協力により、パフォーマンスが向上した。 • PrefillとDecodeの処理を分離することで、リソースの効率的な利用が実現される。 • TCPネットワーク上での最適なP/D分離サービスを実現するための3つの主要コンポーネントがある。

PyTorch Blog
library tool
No Image

Yellow Teaming on Arm: A look inside our responsible AI workshop

この記事では、著者がベルリンで開催されたWeAreDevelopers World Congressで行った「責任あるAI」に関するワークショップについて述べています。ワークショップでは、Yellow Teamingフレームワークを使用して製品設計における隠れた影響を明らかにし、Armの技術を用いて実践的な体験を提供しました。参加者は、ArmのGraviton 4上で動作するPyTorchベースの大規模言語モデル(LLM)アシスタントを構築し、機能設計のブレインストーミング用のチャットボットを作成しました。Yellow Teamingは、製品アイデアの意図しない結果を事前に浮き彫りにする手法であり、参加者はこのプロセスを通じて、AIが自分の仕事にどのように関連するかを理解する手助けを得ました。ワークショップでは、Armの最適化を活用したモデルのデプロイや、パフォーマンス向上のための技術的なポイントも紹介されました。 • Yellow Teamingフレームワークを使用して製品設計の隠れた影響を明らかにする • ArmのGraviton 4上でPyTorchベースのLLMアシスタントを構築 • 参加者は責任あるAIについての理解を深めた • AIの関連性を探るための具体的な手法を学んだ • ArmのKleidiAI INT4最適化カーネルを使用してパフォーマンスを向上させた • 生成速度が32トークン/秒に達し、初回トークン生成時間が0.4秒に短縮された • プロンプトインジェクションのリスクについての認識が高まった

PyTorch Blog
framework tool
No Image

Fast 2-Simplicial Attention: Hardware-Efficient Kernels in TLX

この記事では、2-Simplicial Attentionアルゴリズムのハードウェアに最適化された設計と、TLX(Triton Low-Level Extensions)を用いたカーネルの再実装について説明しています。2-Simplicial Attentionは、クエリと2つのキーセットおよび2つの値セット間の相互作用をモデル化するためにトリリニア関数を使用し、従来のドットプロダクトアテンションよりもトークン効率を向上させることができます。NVIDIA H100 GPU上で、588 Tensor Core BF16 TFLOPsを達成し、元のTritonカーネルの337ピークTFLOPsに対して約1.74倍のスピードアップを実現しました。また、2次元スライディングウィンドウを導入することで、計算コストを軽減しつつ、2-Simplicial Attentionの表現力を保持しています。TLXは、GPUカーネルの実行に対するハードウェアに近い制御を提供し、開発者の生産性を向上させるための言語拡張です。 • 2-Simplicial Attentionアルゴリズムのハードウェア最適化設計を紹介 • TLXを使用してカーネルを再実装し、588 Tensor Core BF16 TFLOPsを達成 • 元のTritonカーネルに対して約1.74倍のスピードアップを実現 • トリリニア関数を用いてクエリと2つのキーセット、2つの値セット間の相互作用をモデル化 • 2次元スライディングウィンドウを導入し、計算コストを軽減しつつ表現力を保持 • TLXはGPUカーネルの実行に対するハードウェアに近い制御を提供

PyTorch Blog
library tool
No Image

PyTorch 2.8+TorchAO: Unlock Efficient LLM Inference on Intel® AI PCs

この記事では、PyTorch 2.8とTorchAOを使用して、Intel® AI PC上での大規模言語モデル(LLM)の効率的な推論を実現する方法について説明しています。Intel® GPU(Arc™シリーズを含む)を活用することで、開発者はローカルでLLMを実行でき、AI機能へのアクセスが向上します。LLMをクライアントデバイスで実行する際の主な課題として、メモリ制約とカーネル効率が挙げられ、PyTorch 2.8ではoneDNNバックエンドやINT4量子化を通じてこれらの問題に対処しています。また、Hugging Faceとの統合により、Transformersモデルのハードウェアアクセラレーションが可能になり、torch.compileを使用することで、グラフ最適化によるデコード速度の向上が実現されています。 • 大規模言語モデル(LLM)の効率的な推論をIntel® AI PCで実現する方法を解説 • Intel® GPUを使用することで、ローカルでのLLM実行が可能になる • メモリ制約とカーネル効率の課題に対処するための最適化手法を紹介 • Hugging Faceとの統合により、Transformersモデルのハードウェアアクセラレーションが実現 • torch.compileを使用して、デコード速度の向上を図る

PyTorch Blog
library tool
No Image

Accelerating 2K scale pre-training up to 1.28x with TorchAO, MXFP8 and TorchTitan on Crusoe B200 Cluster

この記事では、Crusoe B200クラスターを使用して、TorchAO、MXFP8、TorchTitanを活用した2Kスケールの事前トレーニングの加速について説明しています。MXFP8データ型を用いることで、BF16と比較して1.22倍から1.28倍のトレーニング加速が実現され、1856 GPUスケールでも損失曲線の同等性が確認されました。MXFP8は、Microsoftによって開発され、OCP標準となったもので、32要素ごとにスケーリングファクターを持つことで高精度な量子化を実現しています。トレーニング結果は、BF16とMXFP8の間でほぼ同じ最終結果を示し、MXFP8がわずかに優れた収束を示すことが確認されました。 • Crusoe B200クラスターでのトレーニング加速の実施 • MXFP8データ型を使用した場合の1.22倍から1.28倍の加速 • BF16とMXFP8の損失曲線の同等性 • MXFP8は32要素ごとのスケーリングファクターを持つ • トレーニング結果はBF16とMXFP8でほぼ同じで、MXFP8がわずかに優れた収束を示す

PyTorch Blog
library tool