jina-embeddings-v5-omni 発表！全モダリティ対応の小型ベクトルモデル

jina-embeddings-v5-omniを正式にリリースしました。v5-text のベクトルモデルの能力を、画像、音声、動画にまで拡張します。テキスト側は変更なし。v5-omni が生成するテキストベクトルは v5-textとバイト単位で完全に一致するため、既存のインデックスを一切再構築する必要はありません。

jina-embeddings-v5-omni-small は4つのモダリティで平均スコア 53.93 を達成し、5.7分の1 のパラメータ数でありながら、LCO-7B (54.43) にほぼ匹敵します。
jina-embeddings-v5-omni-nano は、0.95Bのパラメータ数ながら、文書検索において競争力のあるスコアを維持しています。

リソースリンク：

HF 🤗 https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni
ModelScope 🧙 https://modelscope.cn/organization/jinaai
テクニカルレポート 📖 https://arxiv.org/abs/2605.08384
API 💻 https://jina.ai/embeddings/

オープンソースの全モダリティベクトルモデル（テキスト、画像、音声、動画をカバー）のパレートフロンティア。 — オープンソースの全モダリティベクトルモデル（テキスト、画像、音声、動画をカバー）のパレート最適。

v5-omni-small (1.57B) のパラメータ数は LCO-7B (8.93B) の 5分の1以下ですが、平均スコアは匹敵しています。v5-omni-nano (0.95B) はさらに小型ですが、LanguageBind (1.14B) を 8.9ポイント 上回っています。比較対象のベースラインには、LanguageBind、Omni-Embed-Nemotron-3B、LCO-Embedding-Omni-3B、LCO-Embedding-Omni-7B が含まれます。

モダリティごとに分解し、MMTEB (テキスト)、MIEB (画像)、MMEB-Video (動画)、MAEB (音声) で評価しました。

v5-omni-small はテキストで 67.0 を達成し、すべてのOmniモデルをリードしています。このスコアは v5-text-small からそのまま継承したもので、劣化はありません。
画像は 56.05 で、クラスタリングタスクでは 84.57 と全モデル中最高を記録しました。
音声は 51.46 で LCO-7B (52.37) とほぼ互角であり、音声分類タスクの 55.89 もトップです。
弱点は動画です。スコアは 41.20 で、LCO-7B の 47.41 との間に、現時点でエンドツーエンド学習方式との最も顕著な差が見られます。時系列推論はエンドツーエンド学習への依存度が高いと言えます。

さらに、4つのモダリティを13のタスクに細分化しました。図中の星印は、v5-omni-small が最強のオープンソースベースライン（パラメータ数は概して3～9倍）を上回ったタスクを示しています。

リードしている4項目：画像分類 (68.55 vs 64.30)、画像クラスタリング (84.57 vs 83.24)、多言語画像検索 (65.88 vs 61.99)、音声分類 (55.89 vs 53.39)。
主な差：動画検索 (27.82 vs 58.73)、複合検索/VQA (44.23 vs 53.40)。これは前出の図の結論と一致しており、動画は依然として補強すべき分野です。

文書検索 (ViDoRe-in-MIEB) を個別に見てみます。v5-omni-small は、0.92B のテキスト＋画像パラメータのみを有効化して、79.08 を獲得し、LCO-3B (78.24、有効パラメータ数 4.07B) を逆転しました。

v5-omni-nano はさらに極限的で、0.31B の有効パラメータで 70.05 を達成し、LanguageBind (37.33) のスコアをほぼ倍増させました。Nemotron-3B が 85.64 で現在首位ですが、そのパラメータ数は v5-omni-small の 5.1倍 です。

モデルアーキテクチャ

v5-omni のアプローチは、次の通りです。テキスト側の基盤である v5-text、新たに追加された視覚および音声エンコーダーは全体を凍結し、その中間に、異なるモダリティの表現を v5-text の意味空間に位置合わせするための、学習可能な小さなプロジェクション層を1層だけ挿入します。3つのタワーはそれぞれ以下の構成です。

視覚：基盤は Qwen3.5 視覚エンコーダー (SigLIP2 を改変) で、2x2 の空間マージによりトークン数を1/4に圧縮します。エンコーダー全体を凍結し、最終層の fc_vision_2 だけを、ランダム初期化したプロジェクション層に置き換えます。この層が視覚特徴量を v5-text の入力次元に合わせ込み、視覚タワーの中で唯一学習される部分です。
音声：基盤は Qwen2.5-Omni エンコーダー (Whisper-large-v3 を改変) で、同様に全体を凍結します。ランダム初期化された1層の fc_audio が、1280次元の出力を v5-text の入力次元に射影します。
動画：新しいエンコーダーは導入せず、一連の視覚フレームとして視覚タワーに直接入力します。必要に応じて、動画から抽出した音声セグメントも合わせて利用します。

タスク側では、v5-omni は v5-text の4つのタスク専用 LoRA アダプター（検索、テキストマッチング、分類、クラスタリング）をそのまま継承し、各タスクのバリエーションごとに独自のプロジェクション層の重みを個別に学習します。

この「凍結＋プロジェクション」アーキテクチャは、直接的なメリットをもたらします。完全なモジュール性です。テキストのみを使用する場合は、テキストの重みだけを読み込みます（メモリ使用量は v5-text と全く同じです）。画像とテキストを扱う場合は画像タワーを追加し、音声や動画もオンデマンドでマウントできます。すべてのモダリティを実行する場合にのみ、すべてのタワーが揃います。

実際に学習されるのは中間の小さなプロジェクション層のみで、全体の重みの 0.35% を占めるに過ぎません。視覚、音声、テキストの3つのタワーはすべて凍結されています。タスク専用の LoRA アダプターが、検索、分類、クラスタリング、テキストマッチングをそれぞれ処理します。

特性	`jina-embeddings-v5-omni-small`	`jina-embeddings-v5-omni-nano`
基盤テキストモデル	`jina-embeddings-v5-text-small` (Qwen3-0.6B)	`jina-embeddings-v5-text-nano` (EuroBERT-210m)
総パラメータ数	~1.56B	~0.95B
対応モダリティ	テキスト、画像、音声、動画、PDF	テキスト、画像、音声、動画、PDF
ベクトル次元数	1024	768
マトリョーシカ次元数	32, 64, 128, 256, 512, 768, 1024	32, 64, 128, 256, 512, 768
コンテキスト長	32768 トークン	8192 トークン
視覚エンコーダー	Qwen3.5-2B ViT (SigLIP2 ベース)	SigLIP2 Base
音声エンコーダー	Whisper-large-v3	Whisper-large-v3
タスクアダプター	4個（検索、テキストマッチング、分類、クラスタリング）
テキスト互換性	`v5-text-small` とバイト単位で一致	`v5-text-nano` とバイト単位で一致
学習可能パラメータ	~18M プロジェクション層 (0.35%)	~7M プロジェクション層 (0.35%)
プーリング方式	最終トークン	最終トークン
モデルライセンス	CC BY-NC 4.0	CC BY-NC 4.0

クイックスタート

Elasticsearch (Elastic Inference Service)

すでに Elasticsearch で jina-embeddings-v5-text を使用している場合、既存のテキストインデックスはv5-omni とそのまま互換性があります。Omni モデルがテキスト入力に対して生成するベクトルは、v5-text とバイト単位で完全に一致します。同じ入力なら同じベクトルが得られるため、再エンベッドもインデックスの再構築も不要です。画像、音声、動画も検索するには、v5-omni 用の新しいインデックスを作成し、マルチモーダルコンテンツを書き込むだけです。

v5-omni を推論エンドポイントとして semantic_text インデックスを作成すると、EIS がインデクシング時と検索時に自動的に対応する LoRA アダプターを選択します。

PUT multimodal-semantic-index{"mappings": {"properties": {"content": {"type": "semantic_text","inference_id": ".jina-embeddings-v5-omni-small"      }    }  }}

テキスト、画像 (base64 data URI)、音声、動画を同じフィールド、同じインデックスに書き込みます。

// テキストの書き込みPOST multimodal-semantic-index/_doc{"content": "'Kraft Dinner' is what Canadians call macaroni and cheese when prepared from a kit."}// 画像の書き込み (base64)POST multimodal-semantic-index/_doc{"content": "data:image/png;base64,iVBORw0KGgoAAAAN..."}

テキストクエリを使って、全モダリティにわたる横断検索を実行します。

GET multimodal-semantic-index/_search{"query": {"semantic": {"field": "content","query": "Was bedeutet 'Kraft Dinner' für Kanadier?"    }  }}

Jina Embedding API

curl https://api.jina.ai/v1/embeddings \  -H "Content-Type: application/json" \  -H "Authorization: Bearer YOUR_API_KEY" \  -d '{    "model": "jina-embeddings-v5-omni-small",    "task": "retrieval.query",    "dimensions": 1024,    "input": ["What does this image show?"],    "images": ["data:image/png;base64,..."]  }'

API キーは jina.ai/embeddings から取得してください。

Hugging Face

from sentence_transformers import SentenceTransformerimport torchmodel = SentenceTransformer("jinaai/jina-embeddings-v5-omni-small-retrieval",    model_kwargs={"dtype": torch.bfloat16},)# テキストベクトル (v5-text と完全に一致)text_emb = model.encode("What is knowledge distillation?",prompt_name="query")# 画像ベクトルfrom PIL import Imageimg = Image.open("photo.jpg")img_emb = model.encode(img)# クロスモーダル類似度similarity = model.similarity(text_emb, img_emb)

学習方法

我々はこのアーキテクチャを凍結エンコーダーモデル合成 (frozen-encoder model composition)と呼んでいます。十分に強力なテキストベクトルモデルを基盤とし、事前学習済みの視覚および音声エンコーダーを接続し、中間には学習可能な小さなプロジェクション層を1層だけ残し、それ以外はすべて凍結します。

複合モデル全体のうち、0.35% の重みのみが学習されることで、以下の3つの利点が生まれます。1. テキスト性能は完全に不変：同じ入力からは同じベクトルが生成され、バイト単位で一致します。2. 高速な学習とメモリ節約：プロジェクション層のみの学習のため、完全な学習と比較して1.8～3.9倍高速で、GPUメモリ使用量は42%～64%削減されます。3. モジュール性：各タワーを独立して読み込めます。

上図は、4x H100、バッチサイズ 256、15K ステップの条件下で、プロジェクション層のみの学習と完全な学習の所要時間を比較したものです。音声側の高速化が最も顕著です。small では 3.2倍 の高速化 (154分 vs 497分)、nano では 3.9倍 の高速化 (112分 vs 441分) を達成しました。凍結されたエンコーダーは勾配やオプティマイザの状態を保持する必要がないため、GPUメモリは 42%～64% 節約できます。

v5-omni は、v5-text のマトリョーシカ次元サポートを完全に継承しています。画像と音声のベクトルは次元を切り詰めてもほぼ損失がなく、動画ベクトルは小さい次元において減衰がより顕著に見られます。

4つのモダリティを1枚のレーダーチャートにまとめ、v5-omni の各項目と最強のベースラインを比較しました。v5-omni-small (1.57B) は、テキスト、画像、音声の3項目でベースラインに匹敵するか、それを上回っています。動画は、レーダーチャート上で唯一明確に凹んでいる部分であり、次期バージョンで補強すべき課題です。

結論

これは Jina による全モダリティベクトルモデルへの初の試みであり、私たちはこの問題を別の角度から考えたいと思います。マルチモーダルベクトルモデルは、本当にエンドツーエッドで全体を学習しなければならないのでしょうか？

v5-omni が出した答えは、「必ずしもそうではない」です。

v5-omni はテキスト基盤を凍結し、全体の 0.35% の重みのみを学習することで、テキスト、画像、音声の分野で、自身の5～7倍のパラメータ数を持つモデルに匹敵する性能を達成しました。私たちが得た教訓は、合成 (composition) が再学習 (retraining) に勝るということです。本当に難しいのは、十分に強力なテキストエンコーダーを最初に訓練することであり、それができれば、軽量なプロジェクション層を通じて視覚と音声を接続するコストはほぼゼロです。

しかし、今回のバージョンで最も価値があるのはベンチマークではなく、この凍結された基盤の設計がプロダクションユーザーにもたらす直接的なメリットです。既存の v5-text のインデックスは一行たりとも変更する必要がありません。

すでに v5-text を使用しているなら、推論エンドポイントを v5-omni に切り替えるだけです。同じクエリ、同じベクトル、バイト単位で一致しているため、データを一切再ベクトル化することなく、画像、音声、動画の検索機能をすぐに利用できます。これが、マルチモーダル検索へのアップグレードに対する私たちの考え方です。それは移行プロジェクトではなく、インプレースアップグレードであるべきです。

jina-embeddings-v5-omni-small は、現時点で20億パラメータ未満のオープンソース Omni ベクトルモデルとしては最強です。jina-embeddings-v5-omni-nano は、10億パラメータ級で競争力のある全モダリティ検索能力を維持しています。

両モデルは、Hugging Face と Jina Search Foundation API で公開されており、Elasticsearch のネイティブ推論エンドポイントから直接呼び出すことも可能です。