Helionは、開発者が高性能なMLカーネルを記述できる高水準DSLであり、最適化の複雑なタスクを自動調整エンジンに委ねています。この自動調整エンジンは、実装選択の広大な高次元空間を探索し、ターゲットハードウェア上でのパフォーマンスを最大化する構成を発見します。しかし、自動調整には長い時間がかかるという欠点があり、ユーザーからの不満の一因となっています。新たに開発されたLFBOパターン検索アルゴリズムは、機械学習の技術を用いて自動調整エンジンの効率を改善し、候補構成の評価数を大幅に削減します。このアルゴリズムにより、NVIDIA B200カーネルでは自動調整時間を36.5%短縮し、カーネルのレイテンシを平均2.6%改善しました。AMD MI350カーネルでも同様の改善が見られ、特定のカーネルでは最大50%の時間短縮が達成されています。 • Helionは高性能MLカーネルを記述するためのDSLで、最適化を自動調整エンジンに委ねる。 • 自動調整エンジンは高次元の実装選択空間を探索し、パフォーマンスを最大化する構成を見つける。 • 自動調整には長い時間がかかり、ユーザーからの不満が多い。 • LFBOパターン検索アルゴリズムは機械学習を用いて自動調整の効率を改善し、評価する候補構成の数を減少させる。 • NVIDIA B200カーネルで自動調整時間を36.5%短縮し、レイテンシを2.6%改善。 • AMD MI350カーネルでも自動調整時間を25.9%短縮し、レイテンシを1.7%改善。 • 特定のカーネルでは最大50%の時間短縮が達成されている。