PyTorch Blog

PyTorch Blog

pytorch.org/blog/
51
Articles
11月14日 05:01
Last updated
No Image

Beyond Quantization: Bringing Sparse Inference to PyTorch

この記事では、PyTorchにおけるスパース推論の統一フレームワークの構築について述べています。大規模言語モデル(LLM)の運用コストが高いため、低精度の量子化だけでは不十分であり、スパース性の最適化が必要とされています。初期のモデルでは、95%から99%の重みが非活性化されていることが示されており、これを利用してメモリと計算を節約する方法が提案されています。特に、Deja Vuと呼ばれる手法を用いることで、推論速度が2-6倍向上し、精度の低下もほとんど見られないことが報告されています。さらに、最新のモデルではSiLUやGeLUといった滑らかな活性化関数が使用されており、これにより活性化のスパース性が低下していますが、Reluficationという手法を用いることで再びスパース性を高めることが可能であるとされています。 • 大規模言語モデルの運用コストが高く、低精度の量子化だけでは不十分である。 • スパース性の最適化が次のフロンティアであり、PyTorchでの統一フレームワークの構築が進められている。 • 初期モデルでは95%から99%の重みが非活性化されており、これを利用してメモリと計算を節約できる。 • Deja Vu手法により、推論速度が2-6倍向上し、精度の低下もほとんど見られない。 • 最新モデルではSiLUやGeLUが使用され、活性化のスパース性が低下しているが、Relufication手法で再びスパース性を高めることが可能。

PyTorch Blog
library tool