jina-embeddings-v5-omni 發布!全模態向量小模型登場

圖片

jina-embeddings-v5-omni正式發布,我們把 v5-text 向量模型的能力延伸到圖像、音訊和影片。文字端維持不變,v5-omni 產出的文字向量與 v5-text逐字節完全一致無需重建任何現有索引

  • jina-embeddings-v5-omni-small 在四種模態上平均得分 53.93,以僅 1/5.7 的參數量幾乎追平 LCO-7B(54.43)。

  • jina-embeddings-v5-omni-nano 在 0.95B 參數下,依然能在文件檢索上交出有競爭力的成績。

資源連結:

HF 🤗 https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni

魔搭 🧙 https://modelscope.cn/organization/jinaai

技術報告 📖 https://arxiv.org/abs/2605.08384

API 💻 https://jina.ai/embeddings/
開源全模態向量模型(同時涵蓋文字、圖像、音訊、影片)的帕累托前沿。
開源全模態向量模型(Omni embedding model)的帕累托最優(同時涵蓋文字、圖像、音訊、影片)。

v5-omni-small(1.57B)的參數量不到 LCO-7B(8.93B)的 1/5,平均分卻追平了它;v5-omni-nano(0.95B)體量更小,但較 LanguageBind(1.14B)高出 8.9 分。橫向對比基線包括 LanguageBind、Omni-Embed-Nemotron-3B、LCO-Embedding-Omni-3B 和 LCO-Embedding-Omni-7B。

不同模態的表現
不同模態的表現

按模態拆解,我們分別在 MMTEB(文字)、MIEB(圖像)、MMEB-Video(影片)、MAEB(音訊)上評測。

  • v5-omni-small 在文字上拿到 67.0,領跑所有全模態模型:這個分數從 v5-text-small 原樣繼承,沒有任何損失。
  • 圖像 56.05,其中分群任務 84.57全榜最高
  • 音訊 51.46 幾乎打平 LCO-7B(52.37),音訊分類任務 55.89 同樣登頂。
  • 短版在影片上:41.20 對 LCO-7B 的 47.41,這是目前與端到端訓練方案之間最顯著的差距,時序推理更依賴端到端訓練。
不同任務的表現
不同任務的表現

再把四個模態細拆成 13 類任務,圖中星星標記的是 v5-omni-small 勝過最強開源基線(對方參數量普遍是它的 3-9 倍)的任務。

  • 領先的四項:圖像分類(68.55 vs 64.30)、圖像分群(84.57 vs 83.24)、多語言圖像檢索(65.88 vs 61.99)、音訊分類(55.89 vs 53.39)。
  • 主要差距:影片檢索(27.82 vs 58.73)、組合檢索 / VQA(44.23 vs 53.40):與前一張圖的結論一致,影片是仍要補的一課。
文件檢索
文件檢索

單獨看文件檢索(ViDoRe-in-MIEB)。v5-omni-small 只激活 0.92B 文字 + 圖像參數,就拿到 79.08,反超 LCO-3B(78.24,激活參數 4.07B)。

v5-omni-nano 更極致:0.31B 激活參數取得 70.05,把 LanguageBind(37.33)近乎翻倍。Nemotron-3B 以 85.64 暫居榜首,但參數量是 v5-omni-small5.1 倍

模型架構

v5-omni 的做法是:作為文字側底座的 v5-text、新增的視覺與音訊編碼器整體凍結,中間只插入一層小型可訓練投影層(projector),負責把不同模態的表示對齊到 v5-text 的語義空間。三個塔分別長這樣:

  • 視覺:基底是 Qwen3.5 視覺編碼器(改良自 SigLIP2),配合 2x2 空間合併把 token 數壓到原來的 1/4。整塊編碼器都凍結起來,只把最後一層 fc_vision_2 換成一層隨機初始化的投影,負責把視覺特徵對齊到 v5-text 的輸入維度,這層也是整個視覺塔裡唯一參與訓練的部分。

  • 音訊:基底是 Qwen2.5-Omni 編碼器(改良自 Whisper-large-v3),同樣整塊凍結。一層隨機初始化的 fc_audio 把 1280 維輸出投影到 v5-text 的輸入維度。

  • 影片:不引入新編碼器,而是直接當成一串視覺幀餵給視覺塔,需要的話再帶上從影片中抽出的音訊段。

任務側,v5-omni 直接繼承 v5-text 的四個任務專用 LoRA 適配器(檢索、文字匹配、分類、分群),每個任務變體單獨訓練自己的投影層權重。

這種「凍結 + 投影」的架構帶來一個直接好處:完全模組化。只用文字,就只載入文字權重(記憶體佔用與 v5-text 一模一樣);要做圖文,就再掛圖像塔;音訊、影片按需掛載,只有跑全模態時,所有塔才一齊就位。

Architecture
v5-omni 架構圖

真正參與訓練的只有中間那條小小的投影層,佔總權重的 0.35%。視覺、音訊、文字三個塔全部凍結。任務專用 LoRA 適配器分別處理檢索、分類、分群和文字匹配。

特性
jina-embeddings-v5-omni-smalljina-embeddings-v5-omni-nano
基底文字模型
jina-embeddings-v5-text-small
(Qwen3-0.6B)
jina-embeddings-v5-text-nano
(EuroBERT-210m)
總參數量
~1.56B~0.95B
支援模態
文字、圖像、音訊、影片、PDF
文字、圖像、音訊、影片、PDF
向量維度
1024
768
Matryoshka 維度
32, 64, 128, 256, 512, 768, 1024
32, 64, 128, 256, 512, 768
上下文長度
32768 tokens
8192 tokens
視覺編碼器
Qwen3.5-2B ViT(SigLIP2)
SigLIP2 Base
音訊編碼器
Whisper-large-v3
Whisper-large-v3
任務適配器
4 個(檢索、文字匹配、分類、分群)
文字相容性
v5-text-small 逐字節一致
v5-text-nano 逐字節一致
可訓練參數
~18M 投影層(0.35%
~7M 投影層(0.35%
池化方式
Last-token
Last-token
模型授權
CC BY-NC 4.0
CC BY-NC 4.0

快速開始

Elasticsearch(Elastic Inference Service)

如果你已經在 Elasticsearch 中使用 jina-embeddings-v5-text現有的文字索引開箱相容 v5-omni。Omni 模型對文字輸入產出的向量與 v5-text 逐字節一致:同樣的輸入,同樣的向量,無需重新嵌入,無需重建索引。要把圖像、音訊、影片也搜起來,只需新建一個 v5-omni 索引,把多模態內容寫進去就行了。

用 v5-omni 作為推理端點建立一個 semantic_text 索引,EIS 會在索引和檢索時自動選擇對應的 LoRA 適配器:

PUT multimodal-semantic-index{"mappings": {"properties": {"content": {"type": "semantic_text","inference_id": ".jina-embeddings-v5-omni-small"      }    }  }}

把文字、圖像(base64 data URI)、音訊、影片寫入同一個欄位、同一個索引:

// 寫入文字POST multimodal-semantic-index/_doc{"content": "'Kraft Dinner' is what Canadians call macaroni and cheese when prepared from a kit."}// 寫入圖像(base64)POST multimodal-semantic-index/_doc{"content": "data:image/png;base64,iVBORw0KGgoAAAAN..."}

用一條文字查詢跨所有模態搜尋:

GET multimodal-semantic-index/_search{"query": {"semantic": {"field": "content","query": "Was bedeutet 'Kraft Dinner' für Kanadier?"    }  }}

Jina Embedding API

curl https://api.jina.ai/v1/embeddings \  -H "Content-Type: application/json" \  -H "Authorization: Bearer YOUR_API_KEY" \  -d '{    "model": "jina-embeddings-v5-omni-small",    "task": "retrieval.query",    "dimensions": 1024,    "input": ["What does this image show?"],    "images": ["data:image/png;base64,..."]  }'

請前往 jina.ai/embeddings 獲取 API Key。

Hugging Face

from sentence_transformers import SentenceTransformerimport torchmodel = SentenceTransformer("jinaai/jina-embeddings-v5-omni-small-retrieval",    model_kwargs={"dtype": torch.bfloat16},)# 文字向量(與 v5-text 完全一致)text_emb = model.encode("What is knowledge distillation?",prompt_name="query")# 圖像向量from PIL import Imageimg = Image.open("photo.jpg")img_emb = model.encode(img)# 跨模態相似度similarity = model.similarity(text_emb, img_emb)

訓練方法

我們把這套架構叫做凍結編碼器的模型組合(frozen-encoder model composition),拿一個足夠強的文字向量模型做基底,把預先訓練好的視覺與音訊編碼器掛上去,中間只留一層小型可訓練投影層,除此之外一律凍結。

整個聯合模型只有 0.35% 的權重在訓練,由此換來三件好處:1. 文字表現分毫未動:同樣的輸入產出同樣的向量,字節級一致;2. 訓練快、顯存:只訓練投影層,比全量訓練快 1.8-3.9 倍,顯存降低 42%-64%; 3. 模組化:各個塔可以獨立載入。

訓練效率
訓練效率

上圖是 4x H100、batch size 256、15K steps 下,投影層訓練 vs 全量訓練的耗時對比。音訊側的提速最明顯:small 加速 3.2 倍 (154 min vs 497 min),nano 加速 3.9 倍(112 min vs 441 min)。顯存能省下 42%-64%,因為凍結的編碼器不需要保存梯度和優化器狀態。

v5-omni 完整繼承了 v5-text 的 Matryoshka 維度支援。圖像與音訊向量在維度截斷下基本無損,影片向量在小維度下衰減更明顯。

Radar summary

把四個模態匯總到一張雷達圖上,v5-omni 各項 vs 最強基線。v5-omni-small(1.57B)在文字、圖像、音訊三項上的曲線 都貼住或反超基線;影片是雷達圖上唯一明顯凹下去的一塊,也是我們下一版本要補的功課。

結語

這是 Jina 在全模態向量模型方向上的首次嘗試,我們希望換個角度思考這個問題:多模態向量模型,真的必須端到端整體訓練嗎?

v5-omni 給出的回答是:不一定。

v5-omni 凍結文字基底、只訓練 0.35% 的權重,就足以在文字、圖像、音訊三項追上參數量 5-7 倍於自己的模型。我們得到的經驗是:組合(composition)勝過重訓(retraining)。真正難的事情是先把一個夠強的文字編碼器訓練出來,這件事一旦做好,透過輕量投影層把視覺和音訊掛上去,代價幾乎為零。

但這一版最值得說的還不是基準評測,而是這種凍結基底的設計帶給生產級用戶的一個直接好處:現有的 v5-text 索引一行都不用動

如果你已經在用 v5-text,把推論端點切到 v5-omni 就好。同樣的查詢,同樣的向量,逐字節一致;不需要重新向量化任何一筆資料,就能直接獲得圖像、音訊、影片檢索能力。這是我們對多模態檢索升級這件事的看法:應該是一次原地升級,而不是一次遷移工程。

jina-embeddings-v5-omni-small 是當前 20 億參數以下最強的開源全模態向量模型。jina-embeddings-v5-omni-nano 在 10 億參數量級上仍保持有競爭力的全模態檢索能力

兩個模型現已上線 Hugging Face 與 Jina Search Foundation API,也可以在 Elasticsearch 的原生推論端點直接呼叫。

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.