huggingface/transformers
github.com/huggingface/transformersModernBERT Decoder (based on v4.53.2)
この記事では、Hugging FaceのTransformersライブラリに新たに追加されたModernBERT Decoderモデルについて説明しています。このモデルは、v4.53.2リリースに基づいており、自己回帰的なテキスト生成タスクに特化したデコーダーアーキテクチャを持っています。ModernBERT Decoderは、ロタリーポジショナルエンコーディングや、8192トークンまでのシーケンスをサポートするための現代的なアーキテクチャの改善を取り入れています。インストールは、指定されたコマンドを使用して行うことができ、今後のマイナーリリースv4.54.0に含まれる予定です。使用例として、テキスト生成やテキスト分類のためのパイプラインの利用方法が示されています。 • 新しいモデルModernBERT DecoderがTransformersに追加された • ModernBERT Decoderは自己回帰的なテキスト生成タスクに特化している • ロタリーポジショナルエンコーディングを使用し、8192トークンまでのシーケンスをサポート • インストールは特定のコマンドを使用して行う • 今後のリリースv4.54.0に含まれる予定 • テキスト生成やテキスト分類の使用例が提供されている
Patch Release v4.53.2
この記事は、Hugging FaceのTransformersライブラリのバージョン4.53.2のパッチリリースについて説明しています。このリリースには、いくつかのバグ修正が含まれています。具体的には、GLM-4.1Vモデルのファインチューニングとバッチ推論に関するバグの修正、Ascend NPUでのフラッシュアテンション2のエラー修正、GLM4.1vモデルのトレーニング時のエラー修正、ページアテンション生成におけるオフバイワンエラーの修正、smollm3用のトークナイザーマッピングの追加、スライディングウィンドウ機能のリバートと非推奨化、GLM4vのバッチビデオフォワードの修正、マスキングユーティリティにおけるposition_idsのデフォルト値の追加が含まれています。 • GLM-4.1Vモデルのファインチューニングとバッチ推論に関するバグ修正 • Ascend NPUでのフラッシュアテンション2のエラー修正 • GLM4.1vモデルのトレーニング時のエラー修正 • ページアテンション生成におけるオフバイワンエラーの修正 • smollm3用のトークナイザーマッピングの追加 • スライディングウィンドウ機能のリバートと非推奨化 • GLM4vのバッチビデオフォワードの修正 • マスキングユーティリティにおけるposition_idsのデフォルト値の追加
Patch Release v4.53.1
この記事は、Hugging FaceのTransformersライブラリのバージョン4.53.1のパッチリリースについて説明しています。このリリースには、いくつかのバグ修正が含まれています。具体的には、tpプラグインの保護されていないインポートの修正、VLMのキー割り当ての修正、Gemma3nに関する複数の修正、FA2推論の修正、ビデオ推論の修正、マルチモーダルプロセッサの初期化時に重複引数を受け取る問題の修正、オプティマイザの作成を遅延させる際にモデルのみを準備する修正、マスクを通じてflex/sdpa/eagerのためのパックされたテンソルフォーマットのサポート追加が含まれています。 • バージョン4.53.1のリリースには複数のバグ修正が含まれている • tpプラグインの保護されていないインポートの修正が行われた • VLMのキー割り当てが修正された • Gemma3nに関する複数の修正が含まれている • FA2推論とビデオ推論の修正が行われた • マルチモーダルプロセッサの初期化時の重複引数の問題が修正された • オプティマイザの作成を遅延させる際にモデルのみを準備する修正が行われた • flex/sdpa/eagerのためのパックされたテンソルフォーマットのサポートが追加された
Release v4.53.0
この記事は、Hugging FaceのTransformersライブラリのバージョン4.53.0のリリースに関するもので、いくつかの新しいモデルが紹介されています。Gemma3nモデルは、低リソースデバイスでの効率的な実行を目的としており、テキスト、画像、動画、音声のマルチモーダル入力を処理し、テキスト出力を生成します。Diaは、非言語コミュニケーションを含む非常にリアルな対話を生成するテキスト音声変換モデルです。Kyutaiは、英語とフランス語の音声をテキストに変換するモデルを提供しています。V-JEPA 2は、動画エンコーダーの自己教師あり学習アプローチで、動作理解や人間の行動予測タスクで最先端の性能を達成します。Arceeは、Llamaアーキテクチャに基づくデコーダ専用のトランスフォーマーモデルで、効率的なトレーニングと推論を実現します。 • Gemma3nモデルは低リソースデバイス向けに設計され、マルチモーダル入力を処理できる。 • Diaモデルは、非言語コミュニケーションを含むリアルな対話を生成する。 • Kyutai STTは、英語とフランス語の音声をテキストに変換するモデルを提供。 • V-JEPA 2は、動画データを用いた自己教師あり学習アプローチで、動作理解タスクでの性能が向上。 • Arceeは、ReLU²活性化を使用したデコーダ専用のトランスフォーマーモデル。
Kyutai-STT (based on v4.52.4)
Kyutai-STTは、Mimiコーデックに基づく音声認識モデルで、音声をストリーミング方式で離散トークンにエンコードし、Moshiのような自己回帰デコーダーを使用しています。このモデルは、英語とフランス語の両方を転写可能な1Bパラメータモデル(kyutai/stt-1b-en_fr)と、英語専用で最大の転写精度を最適化した2.6Bパラメータモデル(kyutai/stt-2.6b-en)の2つのチェックポイントがリリースされています。Kyutai-STTは、Hugging Face Hubで利用可能で、pipコマンドを使用してインストールできます。バッチ推論の例も示されており、音声サンプルをロードし、モデルに入力して出力をデコードする手順が説明されています。 • Kyutai-STTは音声をテキストに変換するモデルである。 • Mimiコーデックを使用し、音声をストリーミング方式で処理する。 • 1Bパラメータモデルと2.6Bパラメータモデルの2つのチェックポイントが提供されている。 • Hugging Face Hubからモデルをインストールし、使用することができる。 • バッチ推論の手順が具体的に示されている。
V-JEPA 2 (based on v4.52.4)
V-JEPA 2は、MetaのFAIRによって開発された自己教師あり学習アプローチを用いたビデオエンコーダーであり、v4.52.4リリースに基づいて追加された新しいモデルです。このモデルは、インターネット規模のビデオデータを使用して、動きの理解や人間の行動予測タスクにおいて最先端の性能を達成します。V-JEPA 2は、ビデオ分類や検索、VLMのためのビデオエンコーダーとして機能します。インストールは、指定されたコマンドを使用して行うことができ、次のマイナーリリースであるv4.53.0に含まれる予定です。V-JEPA 2-ACは、ロボットの操作タスクを解決するためにV-JEPA 2から後処理された潜在アクション条件付きの世界モデルです。 • V-JEPA 2は自己教師あり学習を用いたビデオエンコーダーである。 • インターネット規模のビデオデータを使用して、動きの理解や人間の行動予測タスクで最先端の性能を達成。 • インストールはpipコマンドを使用して行うことができ、安定した改善が期待される。 • V-JEPA 2はビデオ分類や検索、VLMのためのエンコーダーとして機能する。 • V-JEPA 2-ACはロボット操作タスクを解決するための後処理されたモデルである。
ColQwen2 (based on v4.52.4)
ColQwen2は、Hugging Faceのtransformersライブラリに追加された新しいモデルで、v4.52.4を基にしています。このモデルは、視覚的特徴を分析することで文書を取得するために設計されており、従来のテキスト抽出やOCRに依存するのではなく、各ページを画像として扱います。ColQwen2はQwen2-VLバックボーンを使用し、テキストだけでなくレイアウト、表、チャートなどの視覚要素を捉え、詳細なマルチベクトル埋め込みを生成します。これにより、文書の理解が深まり、より効率的かつ正確な取得が可能になります。インストールは特定のコマンドを使用し、Hugging Face Hubで利用可能です。 • ColQwen2は文書の視覚的特徴を分析して取得する新しいモデルである。 • 従来のテキスト抽出やOCRに依存せず、各ページを画像として扱う。 • Qwen2-VLバックボーンを使用し、テキスト、レイアウト、表、チャートなどを捉える。 • 詳細なマルチベクトル埋め込みを生成し、効率的かつ正確な文書取得を実現する。 • インストールは特定のコマンドを使用し、Hugging Face Hubで利用可能。
Patch release: v4.52.4
この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.4のパッチリリースについて説明しています。このリリースには、316のコミットが含まれており、特に以下の修正が行われました:テキスト設定における語彙サイズの検索、VLMの元の状態辞書への変換の修正、フレーム数によるグループ化と再配置、サフィックスを持つプロセッサの修正、torchバージョン2.3未満のデフォルトデバイスの保護、注意スケーリングの修正など。これらの修正は、ライブラリの機能性と安定性を向上させることを目的としています。 • Hugging FaceのTransformersライブラリのバージョン4.52.4のパッチリリース • 316のコミットが含まれている • テキスト設定における語彙サイズの検索機能の追加 • VLMの元の状態辞書への変換の修正 • フレーム数によるグループ化と再配置の修正 • torchバージョン2.3未満のデフォルトデバイスの保護 • 注意スケーリングの修正
Patch release v4.52.3
この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.3のパッチリリースについて説明しています。このリリースでは、インポートの保護が再度行われ、いくつかの問題が修正されました。具体的には、torchの分散処理が既に初期化されている場合に発生するエラーを修正するためのプルリクエスト(#38294)と、ParallelInterfaceを保護するためのプルリクエスト(#38262)が含まれています。これにより、ライブラリの安定性と信頼性が向上します。 • torchの分散処理が初期化されている場合のエラー修正 • ParallelInterfaceの保護 • ライブラリの安定性向上
Patch release v4.52.2
この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.2のパッチリリースについて説明しています。このリリースでは、デバイスマップを上書きしていたフラグが欠落していたため、以前の変更(#37877)が元に戻されました。しかし、これらの変更はTransformersにおけるネイティブな3D並列トレーニングを可能にするため、再導入されました。また、インポート失敗時のエラーメッセージがより明確になり、特定のプランがNONEであってはならないという修正も行われました。 • デバイスマップを上書きしていたフラグが欠落していたため、以前の変更を元に戻した。 • 再導入された変更により、Transformersでのネイティブな3D並列トレーニングが可能になった。 • インポート失敗時のエラーメッセージが改善された。 • 特定のプランがNONEであってはならないという修正が行われた。
v4.52.1: Qwen2.5-Omni, SAM-HQ, GraniteMoeHybrid, D-FINE, CSM, BitNet, LlamaGuard, TimesFM, MLCD, Janus, InternVL
記事は、Hugging FaceのTransformersライブラリのバージョン4.52.1のリリースに関するもので、いくつかの新しいモデルが紹介されています。特にQwen2.5-Omniは、テキスト、画像、音声、ビデオなどの多様なモダリティを処理し、ストリーミング方式でテキストと自然な音声応答を生成するエンドツーエンドのマルチモーダルモデルです。このモデルは、音声とビデオの同期を取るために新しい位置埋め込み手法TMRoPEを提案し、Thinker-Talkerアーキテクチャを用いてテキストと音声の生成を同時に行います。また、SAM-HQは、元のSAMモデルを改良し、高品質なセグメンテーションマスクを生成するモデルで、効率性とゼロショット一般化能力を維持しつつ、マスクの詳細を向上させるための新しいトークンと特徴融合を導入しています。 • Qwen2.5-Omniは、テキスト、画像、音声、ビデオを処理するマルチモーダルモデルである。 • ストリーミング方式でテキストと音声を同時に生成する機能を持つ。 • 音声とビデオの同期のためにTMRoPEという新しい位置埋め込み手法を提案。 • Thinker-Talkerアーキテクチャにより、テキスト生成と音声生成を分担して行う。 • SAM-HQは、元のSAMモデルを改良し、高品質なセグメンテーションマスクを生成する。 • SAM-HQは、学習可能なトークンと特徴融合を用いてマスクの詳細を向上させている。
CSM (based on v4.51.3)
A new model is added to transformers: CSM It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-CSM-preview. In order to install this version, please insta...
GraniteMoeHybrid (based on v4.51.3)
A new model is added to transformers: GraniteMoeHybrid It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-GraniteMoeHybrid-preview. In order to install ...
D-FINE (based on v4.51.3)
A new model is added to transformers: D-FINE It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-D-FINE-preview. In order to install this version, please...
SAM-HQ (based on v4.51.3)
A new model is added to transformers: SAM-HQ It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-SAM-HQ-preview. In order to install this version, please...
BitNet (based on v4.51.3)
A new model is added to transformers: BitNet It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-BitNet-preview. In order to install this version, please...
LlamaGuard-4 (based on v4.51.3)
A new model is added to transformers: LlamaGuard It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-LlamaGuard-preview. In order to install this version...
Qwen2.5-Omni (based on 4.51.3)
A new model is added to transformers: Qwen2.5-Omni. It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-Qwen2.5-Omni-preview. In order to install this ve...
InternVL (2.5 & 3) (based on v4.51.3)
A new model is added to transformers: InternVL (2.5 & 3) It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-InternVL-preview. In order to install this v...
Janus (based on v4.51.3)
A new model is added to transformers: Janus It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-Janus-preview. In order to install this version, please i...
TimesFM (based on v4.51.3)
A new model is added to transformers: TimesFM It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-TimesFM-preview. In order to install this version, plea...
MLCD (based on 4.51.3)
A new model is added to transformers: MLCD It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-MLCD-preview. In order to install this version, please ins...
Patch release v4.51.3
A mix of bugs were fixed in this patch; very exceptionally, we diverge from semantic versioning to merge GLM-4 in this patch release. Handle torch ver in flexattn (#37400) handle torch version edg...
Patch Release 4.51.2
Patch Release 4.51.2 This is another round of bug fixes, but they are a lot more minor and outputs were not really affected! Fix Llama4 offset (#37414) by @Cyrilvallez Attention Quantization with ...
Patch release v4.51.1
Patch release v4.51.1 Since the release of Llama 4, we have fixed a few issues that we are now releasing in patch v4.51.1 Fixing flex attention for torch=2.6.0 (#37285) more fixes for post-trainin...
v4.51.0: Llama 4, Phi4-Multimodal, DeepSeek-v3, Qwen3
New Model Additions Llama 4 Llama 4, developed by Meta, introduces a new auto-regressive Mixture-of-Experts (MoE) architecture.This generation includes two models: The highly capable Llama 4 Mave...
Deepseek v3 (based on 4.50.3)
A new model is added to transformers: DeepSeek 3 (Also known as DeepSeek R1). It is added on top of the v4.50.3 release, and can be installed from the following tag: v4.50.3-DeepSeek-3. In order to...
Patch release v4.50.3
Patch release v4.50.3 Thanks to the vllm team we have a few more bugs that slipped in! [generate] beam search -- fix output cropping (#37080) by @gante [blip-2] Fix dtype mismatch when keep in ...
Patch release v4.50.2
Patch release v4.50.2 I completely forgot to put these in the previous patch sorry! Should put the transformers backend in a good spot! [Utils] torch version checks optionally accept dev versions...
Patch release v4.50.1
Patch release v4.50.1 There were some very minor bugs with the new hub kernels, and with remote code that we had to fix Deprecate #36741 and map Causal to Conditional (#36917) by @zucchini-nlp ...
Release v4.50.0
Release v4.50.0 New Model Additions Model-based releases Starting with version v4.49.0, we have been doing model-based releases, additionally to our traditional, software-based monthly releases. Th...
Mistral 3 (Based on v4.49.0)
A new model is added to transformers: Mistral 3. It is added on top of the v4.49.0 release, and can be installed from the following tag: v4.49.0-Mistral-3. In order to install this version, please ...
Gemma 3 (Based on v4.49.0)
A new model is added to transformers: Gemma 3. It is added on top of the v4.49.0 release, and can be installed from the following tag: v4.49.0-Gemma-3. In order to install this version, please inst...