Helionは、開発者が高性能なMLカーネルを記述できる高水準DSLであり、最適化の複雑なタスクを自動調整エンジンに委ねています。この自動調整エンジンは、実装選択の広大な高次元空間を探索し、ターゲットハードウェア上でのパフォーマンスを最大化する構成を発見します。しかし、自動調整には長い時間がかかるという欠点があり、ユーザーからの不満の一因となっています。新たに開発されたLFBOパターン検索アルゴリズムは、機械学習の技術を用いて自動調整エンジンの効率を改善し、候補構成の評価数を大幅に削減します。このアルゴリズムにより、NVIDIA B200カーネルでは自動調整時間を36.5%短縮し、カーネルのレイテンシを平均2.6%改善しました。AMD MI350カーネルでも同様の改善が見られ、特定のカーネルでは最大50%の時間短縮が達成されています。 • Helionは高性能MLカーネルを記述するためのDSLで、最適化を自動調整エンジンに委ねる。 • 自動調整エンジンは高次元の実装選択空間を探索し、パフォーマンスを最大化する構成を見つける。 • 自動調整には長い時間がかかり、ユーザーからの不満が多い。 • LFBOパターン検索アルゴリズムは機械学習を用いて自動調整の効率を改善し、評価する候補構成の数を減少させる。 • NVIDIA B200カーネルで自動調整時間を36.5%短縮し、レイテンシを2.6%改善。 • AMD MI350カーネルでも自動調整時間を25.9%短縮し、レイテンシを1.7%改善。 • 特定のカーネルでは最大50%の時間短縮が達成されている。
この記事では、Mamba-2のState-Space Dual (SSD)モジュールを最適化するために、5つのSSDカーネルを1つのTritonカーネルに統合した方法について説明しています。この最適化により、NVIDIA A100およびH100 GPU上で1.50倍から2.51倍の速度向上が得られました。カーネルの統合により、起動オーバーヘッドが削減され、冗長なメモリ操作が回避され、すべての入力サイズでカーネルが高速化されます。記事では、SSDカーネルの統合方法、残るボトルネック、ベンチマーク結果、オープンソースでのカーネルリリース計画についても触れています。Mamba-2は、長いシーケンスにスケーラブルなモデルであり、特に128Kトークン以上の長いコンテキストに対して魅力的です。 • Mamba-2のSSDモジュールを最適化し、速度向上を実現した。 • 5つのSSDカーネルを1つのTritonカーネルに統合した。 • NVIDIA A100およびH100 GPUで1.50倍から2.51倍の速度向上を達成。 • カーネルの統合により、起動オーバーヘッドが削減され、メモリ操作が効率化された。 • Mamba-2は長いシーケンスにスケーラブルで、特に128Kトークン以上に対応。
この記事では、PyTorchを使用した高効率な推論システムの設計について説明しています。PyTorchは、特に推薦システムやランキングの分野での最先端研究において広く使用されており、迅速なモデルの導入が求められています。Metaの重要な機械学習ワークロードを支えるこのシステムは、Deep Learning Recommendation Model(DLRM)や新しいモデリング技術(DHEN、HSTUなど)を管理しています。推論環境での効率的なモデル運用のためには、トレーニングモデルを最適化された推論モデルに変換する堅牢なパイプラインが必要です。これにより、高スループットと厳しいレイテンシ要件を満たすことが可能になります。 • PyTorchは推薦システムにおいて主流のフレームワークである。 • 高効率かつ迅速なモデル導入が可能な推論システムを設計している。 • Metaの機械学習ワークロードを支えるために、多様なMLアーキテクチャを管理している。 • トレーニングモデルを推論モデルに変換するための堅牢なパイプラインが必要。 • 推論モデルはトレーニングモデルの前方ロジックを反映し、最適化を可能にする。
この記事では、IBM ResearchのBurkhard RingleinとvLLMチームが、PyTorchに基づく新しいドメイン特化型言語Helionを用いて、AIのパフォーマンスクリティカルなカーネルであるPaged Attentionを実装する過程を説明しています。Helionは、パフォーマンスポータビリティを向上させるための広範なオートチューニング機能を備えており、Tritonよりもさらに進んだ性能を提供することを目指しています。vLLMは、NVIDIA、AMD、IntelのGPUやカスタムアクセラレータで実行可能なLLM推論のための効率的なバックエンドを提供します。Helionのオートチューナーは、アルゴリズム的な側面を変更する自由度が高く、より高度な探索アルゴリズムを特徴としています。記事では、Helionを用いたPaged Attentionの実装方法や、並列化のアプローチについても詳しく述べられています。 • Helionは高性能でポータブルなカーネルの開発を容易にするための新しい言語である。 • vLLMはLLM推論に広く使用され、NVIDIA、AMD、IntelのGPUで実行可能である。 • TritonはPythonで書かれたドメイン特化型言語で、JITコンパイルを提供する。 • Helionのオートチューナーは、アルゴリズム的な側面を変更できる自由度が高い。 • Paged Attentionの実装には、Helionの「Qブロック」概念が使用されている。
この記事では、NVIDIA DGX Sparkを使用してLlama 3.1-8B-Instructモデルのフルファインチューニングを行い、LLMに「推論」機能を追加する方法を紹介しています。合成データを用いて、特定のトピックに対する推論能力を強化することが可能であり、DGX Spark上での実行は1日以内で完了します。合成思考トレースを生成するための手法や、Synthetic-Data-Kitを使用したデータ準備の手順も詳述されています。最終的に、Chain of Thoughtを用いた応答生成のためのカスタムプロンプトの設定方法も説明されています。 • NVIDIA DGX Sparkを使用してLlama 3.1-8B-Instructモデルのフルファインチューニングを実施 • 合成データを用いて特定のトピックに対する推論能力を強化 • DGX Spark上での実行は1日以内で完了 • Synthetic-Data-Kitを使用してデータを準備する手法を紹介 • Chain of Thoughtを用いた応答生成のためのカスタムプロンプトの設定方法を説明
この記事では、ExecuTorchとArm SME2を使用して、モバイルデバイス上での機械学習推論の加速について説明しています。特に、SqueezeSAMというインタラクティブな画像セグメンテーションモデルが、Instagramのカットアウト機能を支えており、これによりユーザーは画像内のオブジェクトを簡単に切り抜くことができます。SME2は、Armv9アーキテクチャに導入された高度なCPU命令セットで、マトリックス指向の計算ワークロードを加速します。実験結果によると、SME2を使用することで、SqueezeSAMの推論レイテンシが大幅に改善され、INT8モデルでは1.83倍、FP16モデルでは3.9倍の速度向上が見られました。これにより、モバイルアプリケーションのインタラクティブな機能がより迅速に実行可能となり、開発者は精度とワークフローに応じた柔軟な選択ができるようになります。 • ExecuTorchとArm SME2を使用してモバイルデバイス上での機械学習推論を加速する。 • SqueezeSAMモデルはInstagramのカットアウト機能を支えている。 • SME2はArmv9アーキテクチャに導入されたCPU命令セットで、マトリックス計算を加速する。 • INT8モデルの推論レイテンシが1.83倍、FP16モデルが3.9倍改善される。 • モバイルアプリケーションのインタラクティブな機能が迅速に実行可能になる。 • 開発者は精度に応じた柔軟な選択ができる。