All Sources (11)

huggingface/transformers

github.com/huggingface/transformers
28
Articles
6月18日 14:02
Last updated
V-JEPA 2 (based on v4.52.4)

V-JEPA 2 (based on v4.52.4)

V-JEPA 2は、MetaのFAIRによって開発された自己教師あり学習アプローチを用いたビデオエンコーダーであり、v4.52.4リリースに基づいて追加された新しいモデルです。このモデルは、インターネット規模のビデオデータを使用して、動きの理解や人間の行動予測タスクにおいて最先端の性能を達成します。V-JEPA 2は、ビデオ分類や検索、VLMのためのビデオエンコーダーとして機能します。インストールは、指定されたコマンドを使用して行うことができ、次のマイナーリリースであるv4.53.0に含まれる予定です。V-JEPA 2-ACは、ロボットの操作タスクを解決するためにV-JEPA 2から後処理された潜在アクション条件付きの世界モデルです。 • V-JEPA 2は自己教師あり学習を用いたビデオエンコーダーである。 • インターネット規模のビデオデータを使用して、動きの理解や人間の行動予測タスクで最先端の性能を達成。 • インストールはpipコマンドを使用して行うことができ、安定した改善が期待される。 • V-JEPA 2はビデオ分類や検索、VLMのためのエンコーダーとして機能する。 • V-JEPA 2-ACはロボット操作タスクを解決するための後処理されたモデルである。

huggingface/transformers
library release tool
ColQwen2 (based on v4.52.4)

ColQwen2 (based on v4.52.4)

ColQwen2は、Hugging Faceのtransformersライブラリに追加された新しいモデルで、v4.52.4を基にしています。このモデルは、視覚的特徴を分析することで文書を取得するために設計されており、従来のテキスト抽出やOCRに依存するのではなく、各ページを画像として扱います。ColQwen2はQwen2-VLバックボーンを使用し、テキストだけでなくレイアウト、表、チャートなどの視覚要素を捉え、詳細なマルチベクトル埋め込みを生成します。これにより、文書の理解が深まり、より効率的かつ正確な取得が可能になります。インストールは特定のコマンドを使用し、Hugging Face Hubで利用可能です。 • ColQwen2は文書の視覚的特徴を分析して取得する新しいモデルである。 • 従来のテキスト抽出やOCRに依存せず、各ページを画像として扱う。 • Qwen2-VLバックボーンを使用し、テキスト、レイアウト、表、チャートなどを捉える。 • 詳細なマルチベクトル埋め込みを生成し、効率的かつ正確な文書取得を実現する。 • インストールは特定のコマンドを使用し、Hugging Face Hubで利用可能。

huggingface/transformers
library release tool
Patch release: v4.52.4

Patch release: v4.52.4

この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.4のパッチリリースについて説明しています。このリリースには、316のコミットが含まれており、特に以下の修正が行われました:テキスト設定における語彙サイズの検索、VLMの元の状態辞書への変換の修正、フレーム数によるグループ化と再配置、サフィックスを持つプロセッサの修正、torchバージョン2.3未満のデフォルトデバイスの保護、注意スケーリングの修正など。これらの修正は、ライブラリの機能性と安定性を向上させることを目的としています。 • Hugging FaceのTransformersライブラリのバージョン4.52.4のパッチリリース • 316のコミットが含まれている • テキスト設定における語彙サイズの検索機能の追加 • VLMの元の状態辞書への変換の修正 • フレーム数によるグループ化と再配置の修正 • torchバージョン2.3未満のデフォルトデバイスの保護 • 注意スケーリングの修正

huggingface/transformers
library release
Patch release v4.52.3

Patch release v4.52.3

この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.3のパッチリリースについて説明しています。このリリースでは、インポートの保護が再度行われ、いくつかの問題が修正されました。具体的には、torchの分散処理が既に初期化されている場合に発生するエラーを修正するためのプルリクエスト(#38294)と、ParallelInterfaceを保護するためのプルリクエスト(#38262)が含まれています。これにより、ライブラリの安定性と信頼性が向上します。 • torchの分散処理が初期化されている場合のエラー修正 • ParallelInterfaceの保護 • ライブラリの安定性向上

huggingface/transformers
release tool
Patch release v4.52.2

Patch release v4.52.2

この記事は、Hugging FaceのTransformersライブラリのバージョン4.52.2のパッチリリースについて説明しています。このリリースでは、デバイスマップを上書きしていたフラグが欠落していたため、以前の変更(#37877)が元に戻されました。しかし、これらの変更はTransformersにおけるネイティブな3D並列トレーニングを可能にするため、再導入されました。また、インポート失敗時のエラーメッセージがより明確になり、特定のプランがNONEであってはならないという修正も行われました。 • デバイスマップを上書きしていたフラグが欠落していたため、以前の変更を元に戻した。 • 再導入された変更により、Transformersでのネイティブな3D並列トレーニングが可能になった。 • インポート失敗時のエラーメッセージが改善された。 • 特定のプランがNONEであってはならないという修正が行われた。

huggingface/transformers
release tool
v4.52.1: Qwen2.5-Omni, SAM-HQ, GraniteMoeHybrid, D-FINE, CSM, BitNet, LlamaGuard, TimesFM, MLCD, Janus, InternVL

v4.52.1: Qwen2.5-Omni, SAM-HQ, GraniteMoeHybrid, D-FINE, CSM, BitNet, LlamaGuard, TimesFM, MLCD, Janus, InternVL

記事は、Hugging FaceのTransformersライブラリのバージョン4.52.1のリリースに関するもので、いくつかの新しいモデルが紹介されています。特にQwen2.5-Omniは、テキスト、画像、音声、ビデオなどの多様なモダリティを処理し、ストリーミング方式でテキストと自然な音声応答を生成するエンドツーエンドのマルチモーダルモデルです。このモデルは、音声とビデオの同期を取るために新しい位置埋め込み手法TMRoPEを提案し、Thinker-Talkerアーキテクチャを用いてテキストと音声の生成を同時に行います。また、SAM-HQは、元のSAMモデルを改良し、高品質なセグメンテーションマスクを生成するモデルで、効率性とゼロショット一般化能力を維持しつつ、マスクの詳細を向上させるための新しいトークンと特徴融合を導入しています。 • Qwen2.5-Omniは、テキスト、画像、音声、ビデオを処理するマルチモーダルモデルである。 • ストリーミング方式でテキストと音声を同時に生成する機能を持つ。 • 音声とビデオの同期のためにTMRoPEという新しい位置埋め込み手法を提案。 • Thinker-Talkerアーキテクチャにより、テキスト生成と音声生成を分担して行う。 • SAM-HQは、元のSAMモデルを改良し、高品質なセグメンテーションマスクを生成する。 • SAM-HQは、学習可能なトークンと特徴融合を用いてマスクの詳細を向上させている。

huggingface/transformers
library release tool