Feedle - Ai - Release - github-huggingface-transformers

huggingface/transformers

Articles

10月15日 01:02

Last updated

Patch release v4.57.1

この記事は、Hugging FaceのTransformersライブラリのバージョン4.57.1のパッチリリースについて説明しています。このリリースでは、オプショナル依存関係であるoptaxに関連する問題が修正され、これによりpoetryでのパースエラーが解消されました。具体的な修正内容としては、optax依存関係の問題の修正、offload_state_dictをkwargsから削除、事前量子化されたチェックポイントのためのbnb fsdpの読み込み修正、fsdpに関するテストの修正、Python 3.9用のトレーナーの修正が含まれています。 • optaxに関連するパースエラーの修正 • offload_state_dictをkwargsから削除 • 事前量子化されたチェックポイントのためのbnb fsdpの読み込み修正 • fsdpに関するテストの修正 • Python 3.9用のトレーナーの修正

huggingface/transformers 2025/10/14

library release

v4.57.0: Qwen3-Next, Vault Gemma, Qwen3 VL, LongCat Flash, Flex OLMO, LFM2 VL, BLT, Qwen3 OMNI MoE, Parakeet, EdgeTAM, OLMO3

記事は、Hugging FaceのTransformersライブラリのバージョン4.57.0のリリースについて説明しています。このリリースには、Qwen3-Next、Vault Gemma、Qwen3 VLなどの新しいモデルが含まれています。Qwen3-Nextは、極端なコンテキスト長と大規模なパラメータ効率のために最適化された次世代の基盤モデルで、ハイブリッドアテンションや高スパースMoEなどのアーキテクチャの革新を導入しています。Vault Gemmaは、1Bパラメータを持つテキスト専用デコーダーモデルで、注意とMLPブロックの後にノルムを削除し、全層でフルアテンションを使用します。Qwen3 VLは、視覚と言語のマルチモーダルモデルで、視覚理解の向上を図っています。これらのモデルは、トレーニングコストを大幅に削減しながら、下流タスクでのパフォーマンスを向上させることを目指しています。 • Qwen3-Nextは、極端なコンテキスト長と大規模なパラメータ効率のために最適化された次世代モデル。 • ハイブリッドアテンションや高スパースMoEを使用し、計算コストを削減。 • Vault Gemmaは、1Bパラメータのテキスト専用デコーダーモデルで、全層でフルアテンションを使用。 • Qwen3 VLは、視覚と言語のマルチモーダルモデルで、視覚理解を向上させるためのアーキテクチャの改善を含む。 • これらのモデルは、トレーニングコストを大幅に削減し、パフォーマンスを向上させることを目指している。

huggingface/transformers 2025/10/03

api library release

Patch release v4.56.2

この記事は、Hugging FaceのTransformersライブラリのバージョン4.56.2のパッチリリースについて説明しています。このリリースでは、マルチプロセッシングによるプロセッサ負荷の改善、RoPEの修正、getterの回帰修正、Emu3のエッジケースに対する設定dtype解析の修正が行われました。これにより、ライブラリの安定性とパフォーマンスが向上しています。 • マルチプロセッシングによるプロセッサ負荷の改善が行われた • RoPEに関するバグが修正された • getterの回帰に関する問題が修正された • Emu3のエッジケースに対する設定dtype解析が修正された • ライブラリの安定性とパフォーマンスが向上した

huggingface/transformers 2025/09/17

library release

Vault-Gemma (based on v4.56.1)

この記事では、Hugging FaceのTransformersライブラリに新たに追加されたモデル「Vault-Gemma」について説明しています。このモデルは、バージョン4.56.1に基づいており、テキスト専用のデコーダーモデルです。Vault-Gemmaは、1Bパラメータを持ち、1024トークンのシーケンス長を使用して訓練されています。訓練には、シーケンスレベルの差分プライバシー（DP）が適用されており、DP確率的勾配降下法（DP-SGD）を使用しています。モデルのインストール方法や、テキスト生成のための使用例も示されています。Vault-Gemmaは、次のマイナーリリースであるv4.57.0に含まれる予定です。 • 新モデルVault-GemmaがTransformersライブラリに追加された • Vault-Gemmaはテキスト専用のデコーダーモデルで、1Bパラメータを持つ • モデルは1024トークンのシーケンス長を使用して訓練された • シーケンスレベルの差分プライバシー（DP）が適用されている • DP-SGDを使用して訓練され、プライバシー保証が提供されている • モデルのインストール方法が示されている • テキスト生成の使用例が提供されている

huggingface/transformers 2025/09/12

api library release

Patch release v4.56.1

この記事は、Hugging FaceのTransformersライブラリのバージョン4.56.1のパッチリリースについて説明しています。このリリースでは、特に新しいdtype引数（torch_dtypeの置き換え）に関連する問題が修正されました。具体的なバグ修正としては、Llama4の精度に関する問題、パイプラインのdtypeの修正、SamAttention/Sam2Attentionにおけるself.dropout_pの未定義の修正、Trainerにおけるaccelerateとの後方互換性の修正、ハブからトークナイザーを読み込む際のオフラインモードの問題の修正、vLLMサポートの修正が含まれています。 • 新しいdtype引数に関連する問題を修正 • Llama4の精度に関する問題を修正 • パイプラインのdtypeを修正 • SamAttention/Sam2Attentionにおけるself.dropout_pの未定義を修正 • Trainerにおけるaccelerateとの後方互換性を修正 • オフラインモードでのトークナイザー読み込みの問題を修正 • vLLMサポートを修正

huggingface/transformers 2025/09/04

release tool

Embedding Gemma (based on v4.56.0)

この記事では、Hugging FaceのTransformersライブラリに新たに追加されたEmbedding Gemmaモデルについて説明しています。このモデルは、v4.56.0リリースに基づいており、モバイルデバイスでの使用に最適化された多言語埋め込みモデルです。Embedding Gemmaは308Mパラメータを持ち、2Kのコンテキストウィンドウを特徴としており、100以上の言語をサポートしています。現在、Massive Text Embedding Benchmark (MTEB)において、500M未満のテキスト専用多言語埋め込みモデルの中で最高の評価を得ています。モデルはsentence-transformersに統合されており、具体的な使用例も示されています。 • Embedding Gemmaは、Hugging FaceのTransformersライブラリに新たに追加されたモデルである。 • このモデルは、モバイルデバイスでの使用に最適化されている。 • 308Mパラメータと2Kのコンテキストウィンドウを持ち、100以上の言語をサポートしている。 • Massive Text Embedding Benchmark (MTEB)で500M未満のモデルの中で最高の評価を得ている。 • モデルはsentence-transformersに統合されており、具体的な使用例が提供されている。

huggingface/transformers 2025/09/04

api cloud library

v4.56: Dino v3, X-Codec, Ovis 2, MetaCLIP 2, Florence 2, SAM 2, Kosmos 2.5, HunYuan, GLMV-4.5

この記事は、Hugging FaceのTransformersライブラリのバージョン4.56のリリースに関するもので、新たに追加されたモデルについて詳述しています。新モデルには、Dino v3、X-Codec、Ovis 2、MetaCLIP 2、Florence 2、SAM 2、Kosmos 2.5、HunYuan、GLMV-4.5が含まれています。Dino v3は、特定の微調整なしで多様な視覚タスクで優れた性能を発揮するビジョン基盤モデルです。X-Codecは、音声言語モデルのためのニューラルオーディオコーデックで、テキストと生成音声のセマンティックな整合性を捉えます。Ovis 2は、視覚とテキストの埋め込みを整合させるマルチモーダル大規模言語モデルの最新バージョンです。MetaCLIP 2は、300以上の言語で訓練されたCLIPモデルの再現であり、多言語ベンチマークで最先端の結果を達成しています。Florence 2は、プロンプトベースのアプローチを用いて視覚と言語のタスクを処理する先進的なモデルです。SAM 2は、画像と動画におけるセグメンテーションを行うモデルです。 • Dino v3は、微調整なしで多様な視覚タスクで優れた性能を発揮するビジョン基盤モデルである。 • X-Codecは、音声言語モデルのためのニューラルオーディオコーデックで、テキストと生成音声のセマンティックな整合性を捉える。 • Ovis 2は、視覚とテキストの埋め込みを整合させるマルチモーダル大規模言語モデルの最新バージョンである。 • MetaCLIP 2は、300以上の言語で訓練されたCLIPモデルで、多言語ベンチマークで最先端の結果を達成している。 • Florence 2は、プロンプトベースのアプローチを用いて視覚と言語のタスクを処理する先進的なモデルである。 • SAM 2は、画像と動画におけるセグメンテーションを行うモデルである。

huggingface/transformers 2025/08/29

platform release

# Patch v4.55.4

この記事は、Hugging FaceのTransformersライブラリのバージョン4.55.4のパッチリリースについて説明しています。このパッチは、コミット#40197のチェリーピックに関する問題を修正するための公式な修正です。リリースは2023年8月22日に行われ、これまでにメインブランチに252のコミットが追加されています。記事では、リリースに関する詳細や修正内容についての情報が提供されています。 • コミット#40197のチェリーピックに関する問題が発生した • パッチv4.55.4はその問題を修正するための公式なリリースである • リリース日は2023年8月22日である • メインブランチにはこれまでに252のコミットが追加されている

huggingface/transformers 2025/08/22

release tool

Patch release v4.55.3

この記事は、Hugging FaceのTransformersライブラリのバージョン4.55.3のパッチリリースについて説明しています。このリリースは、FlashAttention-2のAscend NPUでの安定性向上、一般的なタスクモデルに対するFSDPの動作改善、GPT-OSSのMXFP4統合の修正に焦点を当てています。具体的には、FlashAttention-2における「利用不可」ランタイムエラーの修正、FAの引数準備の元に戻すことによる回帰の解決、FSDPのシャーディングおよびランタイムの問題の修正、MXFP4におけるswiglu_limitの正しい引き渡しの確保、Mambaのキャッシュ処理の修正が含まれています。 • FlashAttention-2のAscend NPUでの「利用不可」ランタイムエラーを修正 • FAの引数準備を元に戻し、回帰を解決 • FSDPの一般的なタスクモデルに対するシャーディングおよびランタイムの問題を修正 • MXFP4におけるswiglu_limitの正しい引き渡しを確保 • Mambaのキャッシュ処理を修正し、古い/不正確な状態を防止

huggingface/transformers 2025/08/21

release tool

Patch release 4.55.2: for FA2 users!

この記事は、Hugging FaceのTransformersライブラリのパッチリリース4.55.2について説明しています。このリリースはFA2ユーザーに影響を与えるもので、前のリリース4.55.1において発生した問題を修正するためのものです。具体的には、gitのマージコンフリクトが原因で、必要なモジュールが欠落していたことが問題とされています。このリリースでは、FA2の生成に関する修正が行われ、今後の改善に向けたポストモーテムの作成が予定されています。 • FA2ユーザーに影響を与えるパッチリリースである • 前のリリース4.55.1における問題を修正 • gitのマージコンフリクトが原因で必要なモジュールが欠落していた • FA2の生成に関する修正が行われた • 今後の改善に向けたポストモーテムの作成が予定されている

huggingface/transformers 2025/08/13

release tool

Patch release 4.55.1

この記事は、Hugging FaceのTransformersライブラリのパッチリリース4.55.1について説明しています。このリリースは主にGPTOSSモデルのMxfp4の安定化に焦点を当てています。具体的な修正内容には、Idefics2およびIdefics3のテンソルデバイス問題の修正、CPUデバイスマップにおけるデフォルトのデクオンタイズ設定、GPT Big Codeの注意スケーリングの修正、Windows互換性の向上、Gemma3nモデルのプレースホルダーマスクのデフォルト値の追加、Fuyuモデルの画像推論の修正、PerceptionLMのビデオ入力の修正、Ideficsのデバイス不一致の修正、Tritonカーネルの依存関係の削除、古いハードウェアでのGPT-OSS MXFP4の有効化、CPU推論のためのデクオンタイズオプションの許可などが含まれています。CIの安定性向上のための修正も行われています。 • GPTOSSモデルのMxfp4の安定化に焦点を当てたリリース • Idefics2、Idefics3のテンソルデバイス問題を修正 • CPUデバイスマップでのデフォルトデクオンタイズ設定の追加 • GPT Big Codeの注意スケーリングを修正 • Windows互換性の向上 • Gemma3nモデルのプレースホルダーマスクのデフォルト値を追加 • Fuyuモデルの画像推論を修正 • PerceptionLMのビデオ入力の修正 • Ideficsのデバイス不一致を修正 • Tritonカーネルの依存関係を削除 • 古いハードウェアでのGPT-OSS MXFP4の有効化 • CPU推論のためのデクオンタイズオプションを許可 • CIの安定性向上のための修正

huggingface/transformers 2025/08/13

release tool

GLM-4.5V preview based on 4.55.0

GLM-4.5Vは、GLM-4.5-Airに基づく新しいマルチモーダル推論モデルで、106Bの総パラメータと12Bのアクティブパラメータを持つ。42のベンチマークで高い性能を発揮し、画像推論、動画理解、GUIタスク、複雑なチャートや長文の解析、視覚要素の正確な位置特定などのカテゴリに対応している。使用するには、transformersのリリースブランチをインストールし、指定されたコードを実行することでモデルを利用できる。 • GLM-4.5Vは新しいマルチモーダル推論モデルである。 • 106Bの総パラメータと12Bのアクティブパラメータを持つ。 • 42のベンチマークで高い性能を示す。 • 画像推論、動画理解、GUIタスク、長文解析などに対応。 • transformersのリリースブランチをインストールすることで使用可能。

huggingface/transformers 2025/08/11

api release tool

v4.55.0: New openai GPT OSS model!

OpenAIが新たにリリースしたGPT OSSモデルファミリーは、117Bパラメータの大規模モデル（gpt-oss-120b）と21Bパラメータの小規模モデル（gpt-oss-20b）から構成されており、強力な推論能力と多様な開発者ユースケースに対応しています。両モデルはMixture-of-Experts（MoE）アーキテクチャを採用し、4ビット量子化スキーム（MXFP4）を使用することで、高速な推論を実現しつつリソース使用を抑えています。大規模モデルは単一のH100 GPUに収まり、小規模モデルは16GBのメモリ内で動作可能で、消費者ハードウェアやオンデバイスアプリケーションに最適です。推論実装にはtransformers、vLLM、llama.cpp、ollamaが推奨されており、APIを介した応答が推奨されています。ライセンスはApache 2.0で、補完的な使用ポリシーが適用されます。 • OpenAIが新たにリリースしたGPT OSSモデルファミリーには117Bと21Bの2つのモデルがある。 • 両モデルはMixture-of-Experts（MoE）アーキテクチャを採用し、4ビット量子化スキームを使用している。 • 大規模モデルはH100 GPUに収まり、小規模モデルは16GBのメモリで動作可能。 • 推論実装にはtransformers、vLLM、llama.cpp、ollamaが推奨されている。 • ライセンスはApache 2.0で、補完的な使用ポリシーがある。

huggingface/transformers 2025/08/05

library release tool

Patch release 4.54.1

この記事は、Hugging FaceのTransformersライブラリのパッチリリース4.54.1について説明しています。このリリースでは、いくつかのバグ修正が行われ、特にキャッシュ関連の問題が解決されました。新たに導入されたレイヤードキャッシュに関連する修正や、ハイブリッドモデルの最大キャッシュ長の設定、GPT2のクロスアテンションに関する修正が含まれています。また、キャッシュの継承やデバイス配置に関する問題も修正されました。リリースは急いで行われたため、いくつかのバグが残っていたことが謝罪されています。 • バグ修正が多数行われた • キャッシュ関連の問題が解決された • ハイブリッドモデルの最大キャッシュ長の設定が修正された • GPT2のクロスアテンションに関する問題が修正された • キャッシュの継承やデバイス配置に関する問題が修正された

huggingface/transformers 2025/07/29

release tool

v4.54.0: Kernels, Transformers Serve, Ernie, Voxtral, LFM2, DeepSeek v2, ModernBERT Decoder...

この記事は、Hugging FaceのTransformersライブラリのバージョン4.54.0のリリースについて説明しています。このリリースでは、トランスフォーマーのパフォーマンス向上に向けた重要な改善が行われ、特に「膨張」と「遅さ」という2つの批判に対処しています。具体的には、標準Llamaモデルのモデリングファイルが500行に削減され、より読みやすくなりました。また、効率的な分散トレーニングの初期ステップが導入され、100Bモデルの読み込みが約3秒で行えるようになりました。新しいモデルとして、BaiduのErnie 4.5と音声入力をサポートするVoxtralが追加され、Voxtralは音声の転写や翻訳、音声理解のタスクを処理できる能力を持っています。 • トランスフォーマーのパフォーマンス向上に向けた改善が行われた • 標準Llamaモデルのモデリングファイルが500行に削減され、読みやすくなった • 効率的な分散トレーニングの初期ステップが導入された • 100Bモデルの読み込みが約3秒で行えるようになった • 新しいモデルErnie 4.5と音声入力をサポートするVoxtralが追加された • Voxtralは音声の転写、翻訳、音声理解のタスクを処理できる

huggingface/transformers 2025/07/25

library release tool

Patch release v4.53.3

この記事は、Hugging FaceのTransformersライブラリのバージョン4.53.3のパッチリリースについて説明しています。このリリースは、オープンテレメトリの修正を含む小規模なパッチであり、リリースの遅延について謝罪が述べられています。具体的には、set_tracer_providerおよびset_meter_providerの呼び出しが削除されたことが記載されています。リリースは2023年7月22日に行われ、これまでに283のコミットがメインブランチに追加されています。 • Hugging FaceのTransformersライブラリのバージョン4.53.3のパッチリリース • オープンテレメトリの修正が含まれている • set_tracer_providerおよびset_meter_providerの呼び出しが削除された • リリースは2023年7月22日に行われた • これまでに283のコミットがメインブランチに追加された

huggingface/transformers 2025/07/22

release tool

Ernie-4.5 and Ernie-4.5 MoE (based on v4.53.2)

この記事では、Hugging FaceのTransformersライブラリに新たに追加されたErnie-4.5およびそのMoE（Mixture of Experts）バリアントについて説明しています。これらのモデルは、v4.53.2リリースに基づいており、特定のコマンドを使用してインストール可能です。Ernie-4.5は、0.3Bパラメータを持つ基本テキストモデルで、標準のLlamaをコアに使用しています。一方、MoEバリアントは、21Bおよび300Bのパラメータを持つ2つの異なるモデルを提供し、Mixtralに基づく専門家を組み合わせています。使用例として、テキスト生成のためのコードスニペットも提供されており、Hugging Face Hubでの利用が可能です。 • 新たにErnie-4.5とそのMoEバリアントがTransformersライブラリに追加された。 • Ernie-4.5は0.3Bパラメータを持つ基本テキストモデルである。 • MoEバリアントは21Bおよび300Bのパラメータを持つ2つのモデルを提供する。 • これらのモデルは標準のLlamaをコアに使用している。 • インストールは特定のコマンドを使用して行うことができる。 • テキスト生成のための使用例がコードスニペットとして示されている。

huggingface/transformers 2025/07/22

api library release

ModernBERT Decoder (based on v4.53.2)

この記事では、Hugging FaceのTransformersライブラリに新たに追加されたModernBERT Decoderモデルについて説明しています。このモデルは、v4.53.2リリースに基づいており、自己回帰的なテキスト生成タスクに特化したデコーダーアーキテクチャを持っています。ModernBERT Decoderは、ロタリーポジショナルエンコーディングや、8192トークンまでのシーケンスをサポートするための現代的なアーキテクチャの改善を取り入れています。インストールは、指定されたコマンドを使用して行うことができ、今後のマイナーリリースv4.54.0に含まれる予定です。使用例として、テキスト生成やテキスト分類のためのパイプラインの利用方法が示されています。 • 新しいモデルModernBERT DecoderがTransformersに追加された • ModernBERT Decoderは自己回帰的なテキスト生成タスクに特化している • ロタリーポジショナルエンコーディングを使用し、8192トークンまでのシーケンスをサポート • インストールは特定のコマンドを使用して行う • 今後のリリースv4.54.0に含まれる予定 • テキスト生成やテキスト分類の使用例が提供されている

huggingface/transformers 2025/07/16

library release

Patch Release v4.53.2

この記事は、Hugging FaceのTransformersライブラリのバージョン4.53.2のパッチリリースについて説明しています。このリリースには、いくつかのバグ修正が含まれています。具体的には、GLM-4.1Vモデルのファインチューニングとバッチ推論に関するバグの修正、Ascend NPUでのフラッシュアテンション2のエラー修正、GLM4.1vモデルのトレーニング時のエラー修正、ページアテンション生成におけるオフバイワンエラーの修正、smollm3用のトークナイザーマッピングの追加、スライディングウィンドウ機能のリバートと非推奨化、GLM4vのバッチビデオフォワードの修正、マスキングユーティリティにおけるposition_idsのデフォルト値の追加が含まれています。 • GLM-4.1Vモデルのファインチューニングとバッチ推論に関するバグ修正 • Ascend NPUでのフラッシュアテンション2のエラー修正 • GLM4.1vモデルのトレーニング時のエラー修正 • ページアテンション生成におけるオフバイワンエラーの修正 • smollm3用のトークナイザーマッピングの追加 • スライディングウィンドウ機能のリバートと非推奨化 • GLM4vのバッチビデオフォワードの修正 • マスキングユーティリティにおけるposition_idsのデフォルト値の追加

huggingface/transformers 2025/07/11

library release

Patch Release v4.53.1

この記事は、Hugging FaceのTransformersライブラリのバージョン4.53.1のパッチリリースについて説明しています。このリリースには、いくつかのバグ修正が含まれています。具体的には、tpプラグインの保護されていないインポートの修正、VLMのキー割り当ての修正、Gemma3nに関する複数の修正、FA2推論の修正、ビデオ推論の修正、マルチモーダルプロセッサの初期化時に重複引数を受け取る問題の修正、オプティマイザの作成を遅延させる際にモデルのみを準備する修正、マスクを通じてflex/sdpa/eagerのためのパックされたテンソルフォーマットのサポート追加が含まれています。 • バージョン4.53.1のリリースには複数のバグ修正が含まれている • tpプラグインの保護されていないインポートの修正が行われた • VLMのキー割り当てが修正された • Gemma3nに関する複数の修正が含まれている • FA2推論とビデオ推論の修正が行われた • マルチモーダルプロセッサの初期化時の重複引数の問題が修正された • オプティマイザの作成を遅延させる際にモデルのみを準備する修正が行われた • flex/sdpa/eagerのためのパックされたテンソルフォーマットのサポートが追加された

huggingface/transformers 2025/07/04

release tool

Release v4.53.0

この記事は、Hugging FaceのTransformersライブラリのバージョン4.53.0のリリースに関するもので、いくつかの新しいモデルが紹介されています。Gemma3nモデルは、低リソースデバイスでの効率的な実行を目的としており、テキスト、画像、動画、音声のマルチモーダル入力を処理し、テキスト出力を生成します。Diaは、非言語コミュニケーションを含む非常にリアルな対話を生成するテキスト音声変換モデルです。Kyutaiは、英語とフランス語の音声をテキストに変換するモデルを提供しています。V-JEPA 2は、動画エンコーダーの自己教師あり学習アプローチで、動作理解や人間の行動予測タスクで最先端の性能を達成します。Arceeは、Llamaアーキテクチャに基づくデコーダ専用のトランスフォーマーモデルで、効率的なトレーニングと推論を実現します。 • Gemma3nモデルは低リソースデバイス向けに設計され、マルチモーダル入力を処理できる。 • Diaモデルは、非言語コミュニケーションを含むリアルな対話を生成する。 • Kyutai STTは、英語とフランス語の音声をテキストに変換するモデルを提供。 • V-JEPA 2は、動画データを用いた自己教師あり学習アプローチで、動作理解タスクでの性能が向上。 • Arceeは、ReLU²活性化を使用したデコーダ専用のトランスフォーマーモデル。

huggingface/transformers 2025/06/26

library release tool

Kyutai-STT (based on v4.52.4)

Kyutai-STTは、Mimiコーデックに基づく音声認識モデルで、音声をストリーミング方式で離散トークンにエンコードし、Moshiのような自己回帰デコーダーを使用しています。このモデルは、英語とフランス語の両方を転写可能な1Bパラメータモデル（kyutai/stt-1b-en_fr）と、英語専用で最大の転写精度を最適化した2.6Bパラメータモデル（kyutai/stt-2.6b-en）の2つのチェックポイントがリリースされています。Kyutai-STTは、Hugging Face Hubで利用可能で、pipコマンドを使用してインストールできます。バッチ推論の例も示されており、音声サンプルをロードし、モデルに入力して出力をデコードする手順が説明されています。 • Kyutai-STTは音声をテキストに変換するモデルである。 • Mimiコーデックを使用し、音声をストリーミング方式で処理する。 • 1Bパラメータモデルと2.6Bパラメータモデルの2つのチェックポイントが提供されている。 • Hugging Face Hubからモデルをインストールし、使用することができる。 • バッチ推論の手順が具体的に示されている。

huggingface/transformers 2025/06/24

api release tool

V-JEPA 2 (based on v4.52.4)

V-JEPA 2は、MetaのFAIRによって開発された自己教師あり学習アプローチを用いたビデオエンコーダーであり、v4.52.4リリースに基づいて追加された新しいモデルです。このモデルは、インターネット規模のビデオデータを使用して、動きの理解や人間の行動予測タスクにおいて最先端の性能を達成します。V-JEPA 2は、ビデオ分類や検索、VLMのためのビデオエンコーダーとして機能します。インストールは、指定されたコマンドを使用して行うことができ、次のマイナーリリースであるv4.53.0に含まれる予定です。V-JEPA 2-ACは、ロボットの操作タスクを解決するためにV-JEPA 2から後処理された潜在アクション条件付きの世界モデルです。 • V-JEPA 2は自己教師あり学習を用いたビデオエンコーダーである。 • インターネット規模のビデオデータを使用して、動きの理解や人間の行動予測タスクで最先端の性能を達成。 • インストールはpipコマンドを使用して行うことができ、安定した改善が期待される。 • V-JEPA 2はビデオ分類や検索、VLMのためのエンコーダーとして機能する。 • V-JEPA 2-ACはロボット操作タスクを解決するための後処理されたモデルである。

huggingface/transformers 2025/06/11

library release tool

ColQwen2 (based on v4.52.4)

ColQwen2は、Hugging Faceのtransformersライブラリに追加された新しいモデルで、v4.52.4を基にしています。このモデルは、視覚的特徴を分析することで文書を取得するために設計されており、従来のテキスト抽出やOCRに依存するのではなく、各ページを画像として扱います。ColQwen2はQwen2-VLバックボーンを使用し、テキストだけでなくレイアウト、表、チャートなどの視覚要素を捉え、詳細なマルチベクトル埋め込みを生成します。これにより、文書の理解が深まり、より効率的かつ正確な取得が可能になります。インストールは特定のコマンドを使用し、Hugging Face Hubで利用可能です。 • ColQwen2は文書の視覚的特徴を分析して取得する新しいモデルである。 • 従来のテキスト抽出やOCRに依存せず、各ページを画像として扱う。 • Qwen2-VLバックボーンを使用し、テキスト、レイアウト、表、チャートなどを捉える。 • 詳細なマルチベクトル埋め込みを生成し、効率的かつ正確な文書取得を実現する。 • インストールは特定のコマンドを使用し、Hugging Face Hubで利用可能。

huggingface/transformers 2025/06/02

library release tool

Patch release: v4.52.4

この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.4のパッチリリースについて説明しています。このリリースには、316のコミットが含まれており、特に以下の修正が行われました：テキスト設定における語彙サイズの検索、VLMの元の状態辞書への変換の修正、フレーム数によるグループ化と再配置、サフィックスを持つプロセッサの修正、torchバージョン2.3未満のデフォルトデバイスの保護、注意スケーリングの修正など。これらの修正は、ライブラリの機能性と安定性を向上させることを目的としています。 • Hugging FaceのTransformersライブラリのバージョン4.52.4のパッチリリース • 316のコミットが含まれている • テキスト設定における語彙サイズの検索機能の追加 • VLMの元の状態辞書への変換の修正 • フレーム数によるグループ化と再配置の修正 • torchバージョン2.3未満のデフォルトデバイスの保護 • 注意スケーリングの修正

huggingface/transformers 2025/05/30

library release

Patch release v4.52.3

この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.3のパッチリリースについて説明しています。このリリースでは、インポートの保護が再度行われ、いくつかの問題が修正されました。具体的には、torchの分散処理が既に初期化されている場合に発生するエラーを修正するためのプルリクエスト（#38294）と、ParallelInterfaceを保護するためのプルリクエスト（#38262）が含まれています。これにより、ライブラリの安定性と信頼性が向上します。 • torchの分散処理が初期化されている場合のエラー修正 • ParallelInterfaceの保護 • ライブラリの安定性向上

huggingface/transformers 2025/05/22

release tool

Patch release v4.52.2

この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.2のパッチリリースについて説明しています。このリリースでは、デバイスマップを上書きしていたフラグが欠落していたため、以前の変更（#37877）が元に戻されました。しかし、これらの変更はTransformersにおけるネイティブな3D並列トレーニングを可能にするため、再導入されました。また、インポート失敗時のエラーメッセージがより明確になり、特定のプランがNONEであってはならないという修正も行われました。 • デバイスマップを上書きしていたフラグが欠落していたため、以前の変更を元に戻した。 • 再導入された変更により、Transformersでのネイティブな3D並列トレーニングが可能になった。 • インポート失敗時のエラーメッセージが改善された。 • 特定のプランがNONEであってはならないという修正が行われた。

huggingface/transformers 2025/05/21

release tool

v4.52.1: Qwen2.5-Omni, SAM-HQ, GraniteMoeHybrid, D-FINE, CSM, BitNet, LlamaGuard, TimesFM, MLCD, Janus, InternVL

記事は、Hugging FaceのTransformersライブラリのバージョン4.52.1のリリースに関するもので、いくつかの新しいモデルが紹介されています。特にQwen2.5-Omniは、テキスト、画像、音声、ビデオなどの多様なモダリティを処理し、ストリーミング方式でテキストと自然な音声応答を生成するエンドツーエンドのマルチモーダルモデルです。このモデルは、音声とビデオの同期を取るために新しい位置埋め込み手法TMRoPEを提案し、Thinker-Talkerアーキテクチャを用いてテキストと音声の生成を同時に行います。また、SAM-HQは、元のSAMモデルを改良し、高品質なセグメンテーションマスクを生成するモデルで、効率性とゼロショット一般化能力を維持しつつ、マスクの詳細を向上させるための新しいトークンと特徴融合を導入しています。 • Qwen2.5-Omniは、テキスト、画像、音声、ビデオを処理するマルチモーダルモデルである。 • ストリーミング方式でテキストと音声を同時に生成する機能を持つ。 • 音声とビデオの同期のためにTMRoPEという新しい位置埋め込み手法を提案。 • Thinker-Talkerアーキテクチャにより、テキスト生成と音声生成を分担して行う。 • SAM-HQは、元のSAMモデルを改良し、高品質なセグメンテーションマスクを生成する。 • SAM-HQは、学習可能なトークンと特徴融合を用いてマスクの詳細を向上させている。

huggingface/transformers 2025/05/20

library release tool

CSM (based on v4.51.3)

A new model is added to transformers: CSM It is added on top of the v4.51.3 release, and can be installed from the following tag: v4.51.3-CSM-preview. In order to install this version, please insta...