huggingface/transformers
github.com/huggingface/transformersv4.56: Dino v3, X-Codec, Ovis 2, MetaCLIP 2, Florence 2, SAM 2, Kosmos 2.5, HunYuan, GLMV-4.5
この記事は、Hugging FaceのTransformersライブラリのバージョン4.56のリリースに関するもので、新たに追加されたモデルについて詳述しています。新モデルには、Dino v3、X-Codec、Ovis 2、MetaCLIP 2、Florence 2、SAM 2、Kosmos 2.5、HunYuan、GLMV-4.5が含まれています。Dino v3は、特定の微調整なしで多様な視覚タスクで優れた性能を発揮するビジョン基盤モデルです。X-Codecは、音声言語モデルのためのニューラルオーディオコーデックで、テキストと生成音声のセマンティックな整合性を捉えます。Ovis 2は、視覚とテキストの埋め込みを整合させるマルチモーダル大規模言語モデルの最新バージョンです。MetaCLIP 2は、300以上の言語で訓練されたCLIPモデルの再現であり、多言語ベンチマークで最先端の結果を達成しています。Florence 2は、プロンプトベースのアプローチを用いて視覚と言語のタスクを処理する先進的なモデルです。SAM 2は、画像と動画におけるセグメンテーションを行うモデルです。 • Dino v3は、微調整なしで多様な視覚タスクで優れた性能を発揮するビジョン基盤モデルである。 • X-Codecは、音声言語モデルのためのニューラルオーディオコーデックで、テキストと生成音声のセマンティックな整合性を捉える。 • Ovis 2は、視覚とテキストの埋め込みを整合させるマルチモーダル大規模言語モデルの最新バージョンである。 • MetaCLIP 2は、300以上の言語で訓練されたCLIPモデルで、多言語ベンチマークで最先端の結果を達成している。 • Florence 2は、プロンプトベースのアプローチを用いて視覚と言語のタスクを処理する先進的なモデルである。 • SAM 2は、画像と動画におけるセグメンテーションを行うモデルである。
# Patch v4.55.4
この記事は、Hugging FaceのTransformersライブラリのバージョン4.55.4のパッチリリースについて説明しています。このパッチは、コミット#40197のチェリーピックに関する問題を修正するための公式な修正です。リリースは2023年8月22日に行われ、これまでにメインブランチに252のコミットが追加されています。記事では、リリースに関する詳細や修正内容についての情報が提供されています。 • コミット#40197のチェリーピックに関する問題が発生した • パッチv4.55.4はその問題を修正するための公式なリリースである • リリース日は2023年8月22日である • メインブランチにはこれまでに252のコミットが追加されている
Patch release v4.55.3
この記事は、Hugging FaceのTransformersライブラリのバージョン4.55.3のパッチリリースについて説明しています。このリリースは、FlashAttention-2のAscend NPUでの安定性向上、一般的なタスクモデルに対するFSDPの動作改善、GPT-OSSのMXFP4統合の修正に焦点を当てています。具体的には、FlashAttention-2における「利用不可」ランタイムエラーの修正、FAの引数準備の元に戻すことによる回帰の解決、FSDPのシャーディングおよびランタイムの問題の修正、MXFP4におけるswiglu_limitの正しい引き渡しの確保、Mambaのキャッシュ処理の修正が含まれています。 • FlashAttention-2のAscend NPUでの「利用不可」ランタイムエラーを修正 • FAの引数準備を元に戻し、回帰を解決 • FSDPの一般的なタスクモデルに対するシャーディングおよびランタイムの問題を修正 • MXFP4におけるswiglu_limitの正しい引き渡しを確保 • Mambaのキャッシュ処理を修正し、古い/不正確な状態を防止
Patch release 4.55.2: for FA2 users!
この記事は、Hugging FaceのTransformersライブラリのパッチリリース4.55.2について説明しています。このリリースはFA2ユーザーに影響を与えるもので、前のリリース4.55.1において発生した問題を修正するためのものです。具体的には、gitのマージコンフリクトが原因で、必要なモジュールが欠落していたことが問題とされています。このリリースでは、FA2の生成に関する修正が行われ、今後の改善に向けたポストモーテムの作成が予定されています。 • FA2ユーザーに影響を与えるパッチリリースである • 前のリリース4.55.1における問題を修正 • gitのマージコンフリクトが原因で必要なモジュールが欠落していた • FA2の生成に関する修正が行われた • 今後の改善に向けたポストモーテムの作成が予定されている
Patch release 4.55.1
この記事は、Hugging FaceのTransformersライブラリのパッチリリース4.55.1について説明しています。このリリースは主にGPTOSSモデルのMxfp4の安定化に焦点を当てています。具体的な修正内容には、Idefics2およびIdefics3のテンソルデバイス問題の修正、CPUデバイスマップにおけるデフォルトのデクオンタイズ設定、GPT Big Codeの注意スケーリングの修正、Windows互換性の向上、Gemma3nモデルのプレースホルダーマスクのデフォルト値の追加、Fuyuモデルの画像推論の修正、PerceptionLMのビデオ入力の修正、Ideficsのデバイス不一致の修正、Tritonカーネルの依存関係の削除、古いハードウェアでのGPT-OSS MXFP4の有効化、CPU推論のためのデクオンタイズオプションの許可などが含まれています。CIの安定性向上のための修正も行われています。 • GPTOSSモデルのMxfp4の安定化に焦点を当てたリリース • Idefics2、Idefics3のテンソルデバイス問題を修正 • CPUデバイスマップでのデフォルトデクオンタイズ設定の追加 • GPT Big Codeの注意スケーリングを修正 • Windows互換性の向上 • Gemma3nモデルのプレースホルダーマスクのデフォルト値を追加 • Fuyuモデルの画像推論を修正 • PerceptionLMのビデオ入力の修正 • Ideficsのデバイス不一致を修正 • Tritonカーネルの依存関係を削除 • 古いハードウェアでのGPT-OSS MXFP4の有効化 • CPU推論のためのデクオンタイズオプションを許可 • CIの安定性向上のための修正
GLM-4.5V preview based on 4.55.0
GLM-4.5Vは、GLM-4.5-Airに基づく新しいマルチモーダル推論モデルで、106Bの総パラメータと12Bのアクティブパラメータを持つ。42のベンチマークで高い性能を発揮し、画像推論、動画理解、GUIタスク、複雑なチャートや長文の解析、視覚要素の正確な位置特定などのカテゴリに対応している。使用するには、transformersのリリースブランチをインストールし、指定されたコードを実行することでモデルを利用できる。 • GLM-4.5Vは新しいマルチモーダル推論モデルである。 • 106Bの総パラメータと12Bのアクティブパラメータを持つ。 • 42のベンチマークで高い性能を示す。 • 画像推論、動画理解、GUIタスク、長文解析などに対応。 • transformersのリリースブランチをインストールすることで使用可能。
v4.55.0: New openai GPT OSS model!
OpenAIが新たにリリースしたGPT OSSモデルファミリーは、117Bパラメータの大規模モデル(gpt-oss-120b)と21Bパラメータの小規模モデル(gpt-oss-20b)から構成されており、強力な推論能力と多様な開発者ユースケースに対応しています。両モデルはMixture-of-Experts(MoE)アーキテクチャを採用し、4ビット量子化スキーム(MXFP4)を使用することで、高速な推論を実現しつつリソース使用を抑えています。大規模モデルは単一のH100 GPUに収まり、小規模モデルは16GBのメモリ内で動作可能で、消費者ハードウェアやオンデバイスアプリケーションに最適です。推論実装にはtransformers、vLLM、llama.cpp、ollamaが推奨されており、APIを介した応答が推奨されています。ライセンスはApache 2.0で、補完的な使用ポリシーが適用されます。 • OpenAIが新たにリリースしたGPT OSSモデルファミリーには117Bと21Bの2つのモデルがある。 • 両モデルはMixture-of-Experts(MoE)アーキテクチャを採用し、4ビット量子化スキームを使用している。 • 大規模モデルはH100 GPUに収まり、小規模モデルは16GBのメモリで動作可能。 • 推論実装にはtransformers、vLLM、llama.cpp、ollamaが推奨されている。 • ライセンスはApache 2.0で、補完的な使用ポリシーがある。
Patch release 4.54.1
この記事は、Hugging FaceのTransformersライブラリのパッチリリース4.54.1について説明しています。このリリースでは、いくつかのバグ修正が行われ、特にキャッシュ関連の問題が解決されました。新たに導入されたレイヤードキャッシュに関連する修正や、ハイブリッドモデルの最大キャッシュ長の設定、GPT2のクロスアテンションに関する修正が含まれています。また、キャッシュの継承やデバイス配置に関する問題も修正されました。リリースは急いで行われたため、いくつかのバグが残っていたことが謝罪されています。 • バグ修正が多数行われた • キャッシュ関連の問題が解決された • ハイブリッドモデルの最大キャッシュ長の設定が修正された • GPT2のクロスアテンションに関する問題が修正された • キャッシュの継承やデバイス配置に関する問題が修正された
v4.54.0: Kernels, Transformers Serve, Ernie, Voxtral, LFM2, DeepSeek v2, ModernBERT Decoder...
この記事は、Hugging FaceのTransformersライブラリのバージョン4.54.0のリリースについて説明しています。このリリースでは、トランスフォーマーのパフォーマンス向上に向けた重要な改善が行われ、特に「膨張」と「遅さ」という2つの批判に対処しています。具体的には、標準Llamaモデルのモデリングファイルが500行に削減され、より読みやすくなりました。また、効率的な分散トレーニングの初期ステップが導入され、100Bモデルの読み込みが約3秒で行えるようになりました。新しいモデルとして、BaiduのErnie 4.5と音声入力をサポートするVoxtralが追加され、Voxtralは音声の転写や翻訳、音声理解のタスクを処理できる能力を持っています。 • トランスフォーマーのパフォーマンス向上に向けた改善が行われた • 標準Llamaモデルのモデリングファイルが500行に削減され、読みやすくなった • 効率的な分散トレーニングの初期ステップが導入された • 100Bモデルの読み込みが約3秒で行えるようになった • 新しいモデルErnie 4.5と音声入力をサポートするVoxtralが追加された • Voxtralは音声の転写、翻訳、音声理解のタスクを処理できる
Patch release v4.53.3
この記事は、Hugging FaceのTransformersライブラリのバージョン4.53.3のパッチリリースについて説明しています。このリリースは、オープンテレメトリの修正を含む小規模なパッチであり、リリースの遅延について謝罪が述べられています。具体的には、set_tracer_providerおよびset_meter_providerの呼び出しが削除されたことが記載されています。リリースは2023年7月22日に行われ、これまでに283のコミットがメインブランチに追加されています。 • Hugging FaceのTransformersライブラリのバージョン4.53.3のパッチリリース • オープンテレメトリの修正が含まれている • set_tracer_providerおよびset_meter_providerの呼び出しが削除された • リリースは2023年7月22日に行われた • これまでに283のコミットがメインブランチに追加された
Ernie-4.5 and Ernie-4.5 MoE (based on v4.53.2)
この記事では、Hugging FaceのTransformersライブラリに新たに追加されたErnie-4.5およびそのMoE(Mixture of Experts)バリアントについて説明しています。これらのモデルは、v4.53.2リリースに基づいており、特定のコマンドを使用してインストール可能です。Ernie-4.5は、0.3Bパラメータを持つ基本テキストモデルで、標準のLlamaをコアに使用しています。一方、MoEバリアントは、21Bおよび300Bのパラメータを持つ2つの異なるモデルを提供し、Mixtralに基づく専門家を組み合わせています。使用例として、テキスト生成のためのコードスニペットも提供されており、Hugging Face Hubでの利用が可能です。 • 新たにErnie-4.5とそのMoEバリアントがTransformersライブラリに追加された。 • Ernie-4.5は0.3Bパラメータを持つ基本テキストモデルである。 • MoEバリアントは21Bおよび300Bのパラメータを持つ2つのモデルを提供する。 • これらのモデルは標準のLlamaをコアに使用している。 • インストールは特定のコマンドを使用して行うことができる。 • テキスト生成のための使用例がコードスニペットとして示されている。
ModernBERT Decoder (based on v4.53.2)
この記事では、Hugging FaceのTransformersライブラリに新たに追加されたModernBERT Decoderモデルについて説明しています。このモデルは、v4.53.2リリースに基づいており、自己回帰的なテキスト生成タスクに特化したデコーダーアーキテクチャを持っています。ModernBERT Decoderは、ロタリーポジショナルエンコーディングや、8192トークンまでのシーケンスをサポートするための現代的なアーキテクチャの改善を取り入れています。インストールは、指定されたコマンドを使用して行うことができ、今後のマイナーリリースv4.54.0に含まれる予定です。使用例として、テキスト生成やテキスト分類のためのパイプラインの利用方法が示されています。 • 新しいモデルModernBERT DecoderがTransformersに追加された • ModernBERT Decoderは自己回帰的なテキスト生成タスクに特化している • ロタリーポジショナルエンコーディングを使用し、8192トークンまでのシーケンスをサポート • インストールは特定のコマンドを使用して行う • 今後のリリースv4.54.0に含まれる予定 • テキスト生成やテキスト分類の使用例が提供されている
Patch Release v4.53.2
この記事は、Hugging FaceのTransformersライブラリのバージョン4.53.2のパッチリリースについて説明しています。このリリースには、いくつかのバグ修正が含まれています。具体的には、GLM-4.1Vモデルのファインチューニングとバッチ推論に関するバグの修正、Ascend NPUでのフラッシュアテンション2のエラー修正、GLM4.1vモデルのトレーニング時のエラー修正、ページアテンション生成におけるオフバイワンエラーの修正、smollm3用のトークナイザーマッピングの追加、スライディングウィンドウ機能のリバートと非推奨化、GLM4vのバッチビデオフォワードの修正、マスキングユーティリティにおけるposition_idsのデフォルト値の追加が含まれています。 • GLM-4.1Vモデルのファインチューニングとバッチ推論に関するバグ修正 • Ascend NPUでのフラッシュアテンション2のエラー修正 • GLM4.1vモデルのトレーニング時のエラー修正 • ページアテンション生成におけるオフバイワンエラーの修正 • smollm3用のトークナイザーマッピングの追加 • スライディングウィンドウ機能のリバートと非推奨化 • GLM4vのバッチビデオフォワードの修正 • マスキングユーティリティにおけるposition_idsのデフォルト値の追加
Patch Release v4.53.1
この記事は、Hugging FaceのTransformersライブラリのバージョン4.53.1のパッチリリースについて説明しています。このリリースには、いくつかのバグ修正が含まれています。具体的には、tpプラグインの保護されていないインポートの修正、VLMのキー割り当ての修正、Gemma3nに関する複数の修正、FA2推論の修正、ビデオ推論の修正、マルチモーダルプロセッサの初期化時に重複引数を受け取る問題の修正、オプティマイザの作成を遅延させる際にモデルのみを準備する修正、マスクを通じてflex/sdpa/eagerのためのパックされたテンソルフォーマットのサポート追加が含まれています。 • バージョン4.53.1のリリースには複数のバグ修正が含まれている • tpプラグインの保護されていないインポートの修正が行われた • VLMのキー割り当てが修正された • Gemma3nに関する複数の修正が含まれている • FA2推論とビデオ推論の修正が行われた • マルチモーダルプロセッサの初期化時の重複引数の問題が修正された • オプティマイザの作成を遅延させる際にモデルのみを準備する修正が行われた • flex/sdpa/eagerのためのパックされたテンソルフォーマットのサポートが追加された
Release v4.53.0
この記事は、Hugging FaceのTransformersライブラリのバージョン4.53.0のリリースに関するもので、いくつかの新しいモデルが紹介されています。Gemma3nモデルは、低リソースデバイスでの効率的な実行を目的としており、テキスト、画像、動画、音声のマルチモーダル入力を処理し、テキスト出力を生成します。Diaは、非言語コミュニケーションを含む非常にリアルな対話を生成するテキスト音声変換モデルです。Kyutaiは、英語とフランス語の音声をテキストに変換するモデルを提供しています。V-JEPA 2は、動画エンコーダーの自己教師あり学習アプローチで、動作理解や人間の行動予測タスクで最先端の性能を達成します。Arceeは、Llamaアーキテクチャに基づくデコーダ専用のトランスフォーマーモデルで、効率的なトレーニングと推論を実現します。 • Gemma3nモデルは低リソースデバイス向けに設計され、マルチモーダル入力を処理できる。 • Diaモデルは、非言語コミュニケーションを含むリアルな対話を生成する。 • Kyutai STTは、英語とフランス語の音声をテキストに変換するモデルを提供。 • V-JEPA 2は、動画データを用いた自己教師あり学習アプローチで、動作理解タスクでの性能が向上。 • Arceeは、ReLU²活性化を使用したデコーダ専用のトランスフォーマーモデル。
Kyutai-STT (based on v4.52.4)
Kyutai-STTは、Mimiコーデックに基づく音声認識モデルで、音声をストリーミング方式で離散トークンにエンコードし、Moshiのような自己回帰デコーダーを使用しています。このモデルは、英語とフランス語の両方を転写可能な1Bパラメータモデル(kyutai/stt-1b-en_fr)と、英語専用で最大の転写精度を最適化した2.6Bパラメータモデル(kyutai/stt-2.6b-en)の2つのチェックポイントがリリースされています。Kyutai-STTは、Hugging Face Hubで利用可能で、pipコマンドを使用してインストールできます。バッチ推論の例も示されており、音声サンプルをロードし、モデルに入力して出力をデコードする手順が説明されています。 • Kyutai-STTは音声をテキストに変換するモデルである。 • Mimiコーデックを使用し、音声をストリーミング方式で処理する。 • 1Bパラメータモデルと2.6Bパラメータモデルの2つのチェックポイントが提供されている。 • Hugging Face Hubからモデルをインストールし、使用することができる。 • バッチ推論の手順が具体的に示されている。
V-JEPA 2 (based on v4.52.4)
V-JEPA 2は、MetaのFAIRによって開発された自己教師あり学習アプローチを用いたビデオエンコーダーであり、v4.52.4リリースに基づいて追加された新しいモデルです。このモデルは、インターネット規模のビデオデータを使用して、動きの理解や人間の行動予測タスクにおいて最先端の性能を達成します。V-JEPA 2は、ビデオ分類や検索、VLMのためのビデオエンコーダーとして機能します。インストールは、指定されたコマンドを使用して行うことができ、次のマイナーリリースであるv4.53.0に含まれる予定です。V-JEPA 2-ACは、ロボットの操作タスクを解決するためにV-JEPA 2から後処理された潜在アクション条件付きの世界モデルです。 • V-JEPA 2は自己教師あり学習を用いたビデオエンコーダーである。 • インターネット規模のビデオデータを使用して、動きの理解や人間の行動予測タスクで最先端の性能を達成。 • インストールはpipコマンドを使用して行うことができ、安定した改善が期待される。 • V-JEPA 2はビデオ分類や検索、VLMのためのエンコーダーとして機能する。 • V-JEPA 2-ACはロボット操作タスクを解決するための後処理されたモデルである。
ColQwen2 (based on v4.52.4)
ColQwen2は、Hugging Faceのtransformersライブラリに追加された新しいモデルで、v4.52.4を基にしています。このモデルは、視覚的特徴を分析することで文書を取得するために設計されており、従来のテキスト抽出やOCRに依存するのではなく、各ページを画像として扱います。ColQwen2はQwen2-VLバックボーンを使用し、テキストだけでなくレイアウト、表、チャートなどの視覚要素を捉え、詳細なマルチベクトル埋め込みを生成します。これにより、文書の理解が深まり、より効率的かつ正確な取得が可能になります。インストールは特定のコマンドを使用し、Hugging Face Hubで利用可能です。 • ColQwen2は文書の視覚的特徴を分析して取得する新しいモデルである。 • 従来のテキスト抽出やOCRに依存せず、各ページを画像として扱う。 • Qwen2-VLバックボーンを使用し、テキスト、レイアウト、表、チャートなどを捉える。 • 詳細なマルチベクトル埋め込みを生成し、効率的かつ正確な文書取得を実現する。 • インストールは特定のコマンドを使用し、Hugging Face Hubで利用可能。
Patch release: v4.52.4
この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.4のパッチリリースについて説明しています。このリリースには、316のコミットが含まれており、特に以下の修正が行われました:テキスト設定における語彙サイズの検索、VLMの元の状態辞書への変換の修正、フレーム数によるグループ化と再配置、サフィックスを持つプロセッサの修正、torchバージョン2.3未満のデフォルトデバイスの保護、注意スケーリングの修正など。これらの修正は、ライブラリの機能性と安定性を向上させることを目的としています。 • Hugging FaceのTransformersライブラリのバージョン4.52.4のパッチリリース • 316のコミットが含まれている • テキスト設定における語彙サイズの検索機能の追加 • VLMの元の状態辞書への変換の修正 • フレーム数によるグループ化と再配置の修正 • torchバージョン2.3未満のデフォルトデバイスの保護 • 注意スケーリングの修正
Patch release v4.52.3
この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.3のパッチリリースについて説明しています。このリリースでは、インポートの保護が再度行われ、いくつかの問題が修正されました。具体的には、torchの分散処理が既に初期化されている場合に発生するエラーを修正するためのプルリクエスト(#38294)と、ParallelInterfaceを保護するためのプルリクエスト(#38262)が含まれています。これにより、ライブラリの安定性と信頼性が向上します。 • torchの分散処理が初期化されている場合のエラー修正 • ParallelInterfaceの保護 • ライブラリの安定性向上
Patch release v4.52.2
この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.2のパッチリリースについて説明しています。このリリースでは、デバイスマップを上書きしていたフラグが欠落していたため、以前の変更(#37877)が元に戻されました。しかし、これらの変更はTransformersにおけるネイティブな3D並列トレーニングを可能にするため、再導入されました。また、インポート失敗時のエラーメッセージがより明確になり、特定のプランがNONEであってはならないという修正も行われました。 • デバイスマップを上書きしていたフラグが欠落していたため、以前の変更を元に戻した。 • 再導入された変更により、Transformersでのネイティブな3D並列トレーニングが可能になった。 • インポート失敗時のエラーメッセージが改善された。 • 特定のプランがNONEであってはならないという修正が行われた。
v4.52.1: Qwen2.5-Omni, SAM-HQ, GraniteMoeHybrid, D-FINE, CSM, BitNet, LlamaGuard, TimesFM, MLCD, Janus, InternVL
記事は、Hugging FaceのTransformersライブラリのバージョン4.52.1のリリースに関するもので、いくつかの新しいモデルが紹介されています。特にQwen2.5-Omniは、テキスト、画像、音声、ビデオなどの多様なモダリティを処理し、ストリーミング方式でテキストと自然な音声応答を生成するエンドツーエンドのマルチモーダルモデルです。このモデルは、音声とビデオの同期を取るために新しい位置埋め込み手法TMRoPEを提案し、Thinker-Talkerアーキテクチャを用いてテキストと音声の生成を同時に行います。また、SAM-HQは、元のSAMモデルを改良し、高品質なセグメンテーションマスクを生成するモデルで、効率性とゼロショット一般化能力を維持しつつ、マスクの詳細を向上させるための新しいトークンと特徴融合を導入しています。 • Qwen2.5-Omniは、テキスト、画像、音声、ビデオを処理するマルチモーダルモデルである。 • ストリーミング方式でテキストと音声を同時に生成する機能を持つ。 • 音声とビデオの同期のためにTMRoPEという新しい位置埋め込み手法を提案。 • Thinker-Talkerアーキテクチャにより、テキスト生成と音声生成を分担して行う。 • SAM-HQは、元のSAMモデルを改良し、高品質なセグメンテーションマスクを生成する。 • SAM-HQは、学習可能なトークンと特徴融合を用いてマスクの詳細を向上させている。
CSM (based on v4.51.3)
A new model is added to transformers: CSM It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-CSM-preview. In order to install this version, please insta...
GraniteMoeHybrid (based on v4.51.3)
A new model is added to transformers: GraniteMoeHybrid It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-GraniteMoeHybrid-preview. In order to install ...
D-FINE (based on v4.51.3)
A new model is added to transformers: D-FINE It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-D-FINE-preview. In order to install this version, please...
SAM-HQ (based on v4.51.3)
A new model is added to transformers: SAM-HQ It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-SAM-HQ-preview. In order to install this version, please...
BitNet (based on v4.51.3)
A new model is added to transformers: BitNet It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-BitNet-preview. In order to install this version, please...
LlamaGuard-4 (based on v4.51.3)
A new model is added to transformers: LlamaGuard It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-LlamaGuard-preview. In order to install this version...
Qwen2.5-Omni (based on 4.51.3)
A new model is added to transformers: Qwen2.5-Omni. It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-Qwen2.5-Omni-preview. In order to install this ve...
InternVL (2.5 & 3) (based on v4.51.3)
A new model is added to transformers: InternVL (2.5 & 3) It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-InternVL-preview. In order to install this v...
Janus (based on v4.51.3)
A new model is added to transformers: Janus It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-Janus-preview. In order to install this version, please i...
TimesFM (based on v4.51.3)
A new model is added to transformers: TimesFM It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-TimesFM-preview. In order to install this version, plea...
MLCD (based on 4.51.3)
A new model is added to transformers: MLCD It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-MLCD-preview. In order to install this version, please ins...
Patch release v4.51.3
A mix of bugs were fixed in this patch; very exceptionally, we diverge from semantic versioning to merge GLM-4 in this patch release. Handle torch ver in flexattn (#37400) handle torch version edg...
Patch Release 4.51.2
Patch Release 4.51.2 This is another round of bug fixes, but they are a lot more minor and outputs were not really affected! Fix Llama4 offset (#37414) by @Cyrilvallez Attention Quantization with ...
Patch release v4.51.1
Patch release v4.51.1 Since the release of Llama 4, we have fixed a few issues that we are now releasing in patch v4.51.1 Fixing flex attention for torch=2.6.0 (#37285) more fixes for post-trainin...
v4.51.0: Llama 4, Phi4-Multimodal, DeepSeek-v3, Qwen3
New Model Additions Llama 4 Llama 4, developed by Meta, introduces a new auto-regressive Mixture-of-Experts (MoE) architecture.This generation includes two models: The highly capable Llama 4 Mave...
Deepseek v3 (based on 4.50.3)
A new model is added to transformers: DeepSeek 3 (Also known as DeepSeek R1). It is added on top of the v4.50.3 release, and can be installed from the following tag: v4.50.3-DeepSeek-3. In order to...
Patch release v4.50.3
Patch release v4.50.3 Thanks to the vllm team we have a few more bugs that slipped in! [generate] beam search -- fix output cropping (#37080) by @gante [blip-2] Fix dtype mismatch when keep in ...
Patch release v4.50.2
Patch release v4.50.2 I completely forgot to put these in the previous patch sorry! Should put the transformers backend in a good spot! [Utils] torch version checks optionally accept dev versions...
Patch release v4.50.1
Patch release v4.50.1 There were some very minor bugs with the new hub kernels, and with remote code that we had to fix Deprecate #36741 and map Causal to Conditional (#36917) by @zucchini-nlp ...
Release v4.50.0
Release v4.50.0 New Model Additions Model-based releases Starting with version v4.49.0, we have been doing model-based releases, additionally to our traditional, software-based monthly releases. Th...
Mistral 3 (Based on v4.49.0)
A new model is added to transformers: Mistral 3. It is added on top of the v4.49.0 release, and can be installed from the following tag: v4.49.0-Mistral-3. In order to install this version, please ...
Gemma 3 (Based on v4.49.0)
A new model is added to transformers: Gemma 3. It is added on top of the v4.49.0 release, and can be installed from the following tag: v4.49.0-Gemma-3. In order to install this version, please inst...