huggingface/transformers
github.com/huggingface/transformersPatch release v4.56.2
この記事は、Hugging FaceのTransformersライブラリのバージョン4.56.2のパッチリリースについて説明しています。このリリースでは、マルチプロセッシングによるプロセッサ負荷の改善、RoPEの修正、getterの回帰修正、Emu3のエッジケースに対する設定dtype解析の修正が行われました。これにより、ライブラリの安定性とパフォーマンスが向上しています。 • マルチプロセッシングによるプロセッサ負荷の改善が行われた • RoPEに関するバグが修正された • getterの回帰に関する問題が修正された • Emu3のエッジケースに対する設定dtype解析が修正された • ライブラリの安定性とパフォーマンスが向上した
Vault-Gemma (based on v4.56.1)
この記事では、Hugging FaceのTransformersライブラリに新たに追加されたモデル「Vault-Gemma」について説明しています。このモデルは、バージョン4.56.1に基づいており、テキスト専用のデコーダーモデルです。Vault-Gemmaは、1Bパラメータを持ち、1024トークンのシーケンス長を使用して訓練されています。訓練には、シーケンスレベルの差分プライバシー(DP)が適用されており、DP確率的勾配降下法(DP-SGD)を使用しています。モデルのインストール方法や、テキスト生成のための使用例も示されています。Vault-Gemmaは、次のマイナーリリースであるv4.57.0に含まれる予定です。 • 新モデルVault-GemmaがTransformersライブラリに追加された • Vault-Gemmaはテキスト専用のデコーダーモデルで、1Bパラメータを持つ • モデルは1024トークンのシーケンス長を使用して訓練された • シーケンスレベルの差分プライバシー(DP)が適用されている • DP-SGDを使用して訓練され、プライバシー保証が提供されている • モデルのインストール方法が示されている • テキスト生成の使用例が提供されている
Patch release v4.56.1
この記事は、Hugging FaceのTransformersライブラリのバージョン4.56.1のパッチリリースについて説明しています。このリリースでは、特に新しいdtype引数(torch_dtypeの置き換え)に関連する問題が修正されました。具体的なバグ修正としては、Llama4の精度に関する問題、パイプラインのdtypeの修正、SamAttention/Sam2Attentionにおけるself.dropout_pの未定義の修正、Trainerにおけるaccelerateとの後方互換性の修正、ハブからトークナイザーを読み込む際のオフラインモードの問題の修正、vLLMサポートの修正が含まれています。 • 新しいdtype引数に関連する問題を修正 • Llama4の精度に関する問題を修正 • パイプラインのdtypeを修正 • SamAttention/Sam2Attentionにおけるself.dropout_pの未定義を修正 • Trainerにおけるaccelerateとの後方互換性を修正 • オフラインモードでのトークナイザー読み込みの問題を修正 • vLLMサポートを修正
Embedding Gemma (based on v4.56.0)
この記事では、Hugging FaceのTransformersライブラリに新たに追加されたEmbedding Gemmaモデルについて説明しています。このモデルは、v4.56.0リリースに基づいており、モバイルデバイスでの使用に最適化された多言語埋め込みモデルです。Embedding Gemmaは308Mパラメータを持ち、2Kのコンテキストウィンドウを特徴としており、100以上の言語をサポートしています。現在、Massive Text Embedding Benchmark (MTEB)において、500M未満のテキスト専用多言語埋め込みモデルの中で最高の評価を得ています。モデルはsentence-transformersに統合されており、具体的な使用例も示されています。 • Embedding Gemmaは、Hugging FaceのTransformersライブラリに新たに追加されたモデルである。 • このモデルは、モバイルデバイスでの使用に最適化されている。 • 308Mパラメータと2Kのコンテキストウィンドウを持ち、100以上の言語をサポートしている。 • Massive Text Embedding Benchmark (MTEB)で500M未満のモデルの中で最高の評価を得ている。 • モデルはsentence-transformersに統合されており、具体的な使用例が提供されている。
v4.56: Dino v3, X-Codec, Ovis 2, MetaCLIP 2, Florence 2, SAM 2, Kosmos 2.5, HunYuan, GLMV-4.5
この記事は、Hugging FaceのTransformersライブラリのバージョン4.56のリリースに関するもので、新たに追加されたモデルについて詳述しています。新モデルには、Dino v3、X-Codec、Ovis 2、MetaCLIP 2、Florence 2、SAM 2、Kosmos 2.5、HunYuan、GLMV-4.5が含まれています。Dino v3は、特定の微調整なしで多様な視覚タスクで優れた性能を発揮するビジョン基盤モデルです。X-Codecは、音声言語モデルのためのニューラルオーディオコーデックで、テキストと生成音声のセマンティックな整合性を捉えます。Ovis 2は、視覚とテキストの埋め込みを整合させるマルチモーダル大規模言語モデルの最新バージョンです。MetaCLIP 2は、300以上の言語で訓練されたCLIPモデルの再現であり、多言語ベンチマークで最先端の結果を達成しています。Florence 2は、プロンプトベースのアプローチを用いて視覚と言語のタスクを処理する先進的なモデルです。SAM 2は、画像と動画におけるセグメンテーションを行うモデルです。 • Dino v3は、微調整なしで多様な視覚タスクで優れた性能を発揮するビジョン基盤モデルである。 • X-Codecは、音声言語モデルのためのニューラルオーディオコーデックで、テキストと生成音声のセマンティックな整合性を捉える。 • Ovis 2は、視覚とテキストの埋め込みを整合させるマルチモーダル大規模言語モデルの最新バージョンである。 • MetaCLIP 2は、300以上の言語で訓練されたCLIPモデルで、多言語ベンチマークで最先端の結果を達成している。 • Florence 2は、プロンプトベースのアプローチを用いて視覚と言語のタスクを処理する先進的なモデルである。 • SAM 2は、画像と動画におけるセグメンテーションを行うモデルである。