この記事は、Hugging FaceのTransformersライブラリのバージョン5.5.4のパッチリリースについて説明しています。このリリースでは、主にトークナイザーに関するいくつかの修正が行われました。具体的には、Kimi-K2.5トークナイザーの回帰修正や、DeepSpeed ZeRO-3を使用している際のIndexErrorの修正が含まれています。また、Qwen2.5-VLに関しては、静止画像に適用されるRoPEスケーリングの修正も行われました。これらの修正は、トレーニングの安定性やパフォーマンスを向上させることを目的としています。 • Kimi-K2.5トークナイザーの回帰修正が行われた。 • DeepSpeed ZeRO-3使用時のIndexErrorが修正された。 • Qwen2.5-VLの静止画像に対するRoPEスケーリングの修正が行われた。 • これらの修正はトレーニングの安定性を向上させることを目的としている。 • パッチリリースは迅速な修正を提供するために行われた。
この記事は、Hugging FaceのTransformersライブラリのバージョン5.5.3のパッチリリースについて説明しています。このリリースは、Gemma4のdevice_mapサポートを修正するための小規模なパッチです。具体的には、Cyrilvallezによるコミットが含まれており、device mapの自動設定に関する問題が解決されています。リリースは2023年4月9日に行われ、48のコミットがメインブランチに追加されています。 • Gemma4のdevice_mapサポートを修正するためのパッチリリース • Cyrilvallezによるコミットが含まれている • device mapの自動設定に関する問題が解決された • 2023年4月9日にリリースされた • メインブランチには48のコミットが追加された
この記事は、Hugging FaceのTransformersライブラリのバージョン5.5.2のパッチリリースについて説明しています。このリリースでは、Gemma4の最適化、use_cache=Falseの際の推論の修正、いくつかのモデルの重み名のシリアライズに関する変換マッピングの修正が行われました。具体的には、MoEをGemma4 TPプランに追加し、kv状態の共有をキャッシュから分離し、共有された重みを削除して読み込み時にスキップする処理が含まれています。これにより、モデルのパフォーマンスが向上し、より一貫した動作が実現されます。 • Gemma4の最適化が行われた • use_cache=Falseの際の推論の問題が修正された • いくつかのモデルの重み名のシリアライズに関する変換マッピングが修正された • MoEをGemma4 TPプランに追加した • kv状態の共有をキャッシュから分離した • 共有された重みを削除し、読み込み時にスキップする処理が追加された
この記事は、Hugging FaceのTransformersライブラリのバージョン5.5.1のパッチリリースについて説明しています。このリリースは非常に小規模で、主にvLLMとGemma4に焦点を当てています。具体的には、Gemma4のエクスポートの修正と、vLLMのCISの修正が行われました。これらの修正は、開発者Arthur ZuckerとCyrilvallezによって行われ、統合テストも追加されています。 • v5.5.1は小規模なパッチリリースである • 主にvLLMとGemma4に関連する修正が含まれている • Gemma4のエクスポートの修正が行われた • vLLMのCISの修正が行われた • 統合テストが追加された
この記事は、Hugging FaceのTransformersライブラリのバージョン5.5.0のリリースに関するもので、新しいモデルの追加について詳述しています。新たに追加されたGemma4は、マルチモーダルモデルで、事前学習済みおよび指示調整済みのバリエーションがあり、1B、13B、27Bのパラメータを持っています。Gemma4は、異なるサイズの画像を固定トークン数で処理する新しい設計を採用しており、画像の自然なアスペクト比を保持します。また、NomicBERTは、8192のコンテキスト長を持つBERTインスパイアのエンコーダモデルで、短いコンテキストと長いコンテキストのベンチマークでOpenAIのモデルを上回る性能を示しています。さらに、Music Flamingoは、音楽に関する理解と推論を強化するために設計されたオーディオ・言語モデルです。 • Gemma4はマルチモーダルモデルで、異なるサイズの画像を固定トークン数で処理する新設計を採用している。 • NomicBERTは8192のコンテキスト長を持ち、短いコンテキストと長いコンテキストのベンチマークで優れた性能を示す。 • Music Flamingoは音楽に特化したオーディオ・言語モデルで、音声、音、音楽を統一的に処理する。 • Gemma4は、画像の自然なアスペクト比を保持しつつ、トークン数の制約を設けている。 • NomicBERTは、特定の指示プレフィックスを使用して、検索、クラスタリング、分類のための密なベクトル埋め込みを生成する。
この記事は、Hugging FaceのTransformersライブラリのバージョン5.4.0のリリースについて説明しています。このリリースには、いくつかの新しいモデルが追加されており、特にVidEoMT、UVDoc、Jina Embeddings v3、Mistral 4、PI0、SLANeXtが含まれています。VidEoMTは、オンラインビデオセグメンテーション用の軽量なエンコーダ専用モデルで、160 FPSで動作し、競争力のある精度を達成します。UVDocは、文書画像の幾何学的変換を行うためのモデルで、歪みや傾きの修正を行います。Jina Embeddings v3は、多言語対応のテキスト埋め込みモデルで、長い入力シーケンスをサポートします。Mistral 4は、一般的な指示モデルと推論モデルの機能を統合したハイブリッドモデルです。PI0は、視覚と言語の指示を処理してロボットの動作を生成するモデルです。 • 新しいモデルVidEoMTは、オンラインビデオセグメンテーション用で、160 FPSで動作し、競争力のある精度を持つ。 • UVDocは、文書画像の幾何学的変換を行い、歪みや傾きを修正する。 • Jina Embeddings v3は、多言語対応のテキスト埋め込みモデルで、長い入力シーケンスをサポートする。 • Mistral 4は、一般的な指示モデルと推論モデルの機能を統合したハイブリッドモデルである。 • PI0は、視覚と言語の指示を処理してロボットの動作を生成する。