記事は、Hugging FaceのTransformersライブラリのバージョン5.2.0のリリースについて説明しています。このリリースには、VoxtralRealtime、GLM-5、Qwen3.5などの新しいモデルが追加されました。VoxtralRealtimeは、リアルタイムの音声認識を目的としたストリーミングモデルで、低遅延で音声を逐次処理します。GLM-5は、355Bから744Bパラメータにスケールアップし、前処理データを23Tから28.5Tトークンに増加させ、長文コンテキストを保持しつつデプロイコストを削減します。Qwen3.5は、397Bパラメータを持つビジョン・ランゲージモデルで、推論効率を最適化し、言語サポートを119から201に拡張しました。これらのモデルは、推論、コーディング、エージェントタスクにおいて優れた性能を発揮します。 • VoxtralRealtimeはリアルタイム音声認識用のストリーミングモデルで、低遅延で音声を逐次処理する。 • GLM-5は744Bパラメータにスケールアップし、前処理データを28.5Tトークンに増加させ、デプロイコストを削減。 • GLM-5は、推論、コーディング、エージェントタスクにおいて優れた性能を発揮。 • Qwen3.5は397Bパラメータを持ち、推論効率を最適化し、言語サポートを119から201に拡張。 • 新しいモデルは、開発者や企業の生産性を大幅に向上させる。
この記事は、Hugging FaceのTransformersライブラリのバージョン5.1.0のリリースに関するもので、いくつかの新しいモデルが追加されたことを紹介しています。新たに追加されたEXAONE-MoEは、LG AI Researchによって開発された大規模な多言語モデルで、2360億のパラメータを持ち、推論時には230億がアクティブになります。このモデルは、推論能力や多言語理解に優れています。PP-DocLayoutV3は、複雑なレイアウト分析のための統一された高効率モデルで、インスタンスセグメンテーションと読み取り順序予測を統合しています。Youtu-LLMは、1.96Bのパラメータを持つ小型のLLMで、長いコンテキストをサポートし、エージェント関連のタスクをこなす能力があります。GLM-OCRは、複雑な文書理解のためのマルチモーダルOCRモデルで、トレーニング効率と認識精度を向上させるための新しい手法を導入しています。 • EXAONE-MoEは2360億のパラメータを持ち、推論時に230億がアクティブである。 • PP-DocLayoutV3は、複雑な物理的歪みを扱うための統一されたモデルである。 • Youtu-LLMは1.96Bのパラメータを持ち、長いコンテキストをサポートする。 • GLM-OCRは、複雑な文書理解のためのマルチモーダルOCRモデルである。 • 新しい手法により、トレーニング効率と認識精度が向上している。
Transformers v5のリリースが発表され、これは5年ぶりの主要なリリースである。新しいAPIが導入され、特に動的重みの読み込みやトークン化に関する重要な変更が行われた。これにより、APIが大幅に簡素化され、バグ修正も多数含まれている。今後は毎週マイナーリリースを行う方針に変更され、最新のモデルを迅速に利用できるようになる。新しい重みの読み込みAPIは、チェックポイントに対して操作を適用することができ、量子化や並列処理アルゴリズムに対応するための機能が強化されている。これにより、アーキテクチャに基づいた重みの変換が可能となる。 • Transformers v5は5年ぶりの主要リリースで、1200のコミットが行われた。 • 新しいAPIにより、動的重みの読み込みやトークン化が改善された。 • APIの簡素化と多くのバグ修正が含まれている。 • 今後は毎週マイナーリリースを行い、最新モデルを迅速に提供する。 • 新しい重みの読み込みAPIは、チェックポイントに対して操作を適用できる。