拿掉視覺編碼器，多模態模型反而更強了？

多模態統一模型發展至今，一個根深蒂固的共識是：要理解影像，就得靠預訓練好的視覺編碼器（如CLIP、SigLIP）提取特徵；要生成影像，就得靠VAE把像素壓縮到潛空間。但如果把這些編碼器全部拿掉，讓模型直接從原始像素學起，會發生什麼事？

Tuna-2給出了一個反直覺的答案：在充分預訓練後，完全無編碼器的設計在多模態理解任務上持續超越有編碼器的方案，尤其在需要細粒度視覺感知的基準測試中優勢明顯。

[圖1：Tuna-2架構演進與多模態性能對比] 論文透過逐步剝離Tuna的視覺編碼組件，先移除VAE得到僅保留表徵編碼器的Tuna-R，再進一步移除表徵編碼器得到完全無編碼器的Tuna-2。Tuna-2使用像素嵌入在多項多模態基準上超越了Tuna-R和Tuna。

逐層剝離，從Tuna到Tuna-2

論文的核心思路是「做減法」。現有的統一多模態模型（UMM，Unified Multimodal Model）通常包含兩個視覺編碼器：一個用於理解的表徵編碼器（如SigLIP），一個用於生成的VAE。論文分兩步將它們逐一移除。

第一步，移除VAE，保留表徵編碼器，得到中間產物Tuna-R。Tuna-R的理解部分沿用經典的編碼器+LLM範式，生成部分則改為像素空間的flow matching，採用JiT提出的x-prediction與v-loss範式。具體來說，給定來源影像x₁和取樣雜訊x₀，透過線性排程構造像素空間中的雜訊樣本，模型直接預測乾淨影像，再將預測轉換為速度項進行迴歸學習。

第二步，移除表徵編碼器，用簡單的patch embedding層替代，得到最終的Tuna-2。整個模型簡化為單一的transformer decoder，直接處理影像和文本token。這種設計避免了預訓練編碼器內建的歸納偏置，比如固定輸入解析度和對底層視覺細節的有限存取。

[圖3：基於遮罩的特徵學習方案示意圖] 訓練時使用可學習的mask token對多模態理解進行正則化，並對視覺生成執行遮罩預測。

像素空間的挑戰與遮罩學習

移除VAE意味著視覺建模從緊湊的潛空間轉移到高維像素空間，冗餘資訊大幅增加，模型容易依賴表面捷徑而非學習真正有用的視覺線索。為此，論文引入了一種基於遮罩的視覺特徵學習方案。

訓練時，按一定遮罩比例隨機選取影像patch，用可學習的mask token替換後送入LLM decoder。同一遮罩操作在生成和理解樣本上扮演不同角色：對於生成樣本，模型需要從部分可見的雜訊影像中預測遮罩區域和非遮罩區域的乾淨影像，構造更難的去雜訊問題；對於理解樣本，模型需要在部分視覺觀測下完成多模態推理，起到正則化作用。實驗表明，Tuna-2從遮罩訓練中獲益比Tuna-R更大，論文推測這與Tuna-R使用的SigLIP 2編碼器本身就經過類似遮罩預測預訓練有關。

兩階段端到端訓練

無編碼器設計使Tuna-2可以完全端到端訓練，無需單獨訓練連接層。訓練分兩個階段：

階段一為全模型預訓練，使用5.5億組內部圖文對，其中70%為影像描述資料、30%為文生圖資料，另外加入占總預訓練資料20%的Nemotron純文字資料。在64個節點上以學習率1×10⁻⁴訓練30萬步。階段二為監督微調（SFT），使用1300萬條FineVision對話樣本和約200萬條OmniEdit影像編輯樣本，以學習率2×10⁻⁵訓練5萬步。所有階段每GPU輸入序列長度填充至16k token。

LLM decoder統一採用Qwen2.5-7B-Instruct。Tuna-R額外使用SigLIP 2 So400M作為表徵編碼器，並在階段一之前增加一個3000步的連接層對齊階段。

理解能力：無編碼器反超有編碼器

論文在9個VQA基準上評估影像理解能力，包括GQA、RealWorldQA、MMVet、MMMU、MMVP、SEED-Bench2+、AI2D、ChartQA和OCRBench。結果顯示，Tuna-R和Tuna-2均超越Tuna，在所有7B規模原生UMM中取得最優。值得注意的是，Tuna-2在用簡單的patchify層替換表徵編碼器後，理解效能反而超過了Tuna-R。

在V*、CountBench和VisuLogic等側重細粒度視覺推理的基準上，Tuna-R和Tuna-2均超越潛空間UMM（如Show-o2、Tuna），表明像素空間視覺表徵在細粒度視覺推理中的必要性。

[圖6：Tuna-R與Tuna-2的準確率隨訓練資料規模變化曲線] 在OCRBench、MMVP和V*三個理解基準上，Tuna-R在訓練早期領先，但Tuna-2後來居上並最終反超。在GenEval生成基準上，Tuna-R全程略優，但差距隨訓練規模增大而縮小。

訓練動態分析揭示了一個有趣的現象：在訓練早期，Tuna-R憑藉預訓練編碼器的語義先驗在理解任務上領先；但隨著訓練資料增加，Tuna-2逐漸追上並反超。這表明單體式無編碼器設計更適合從大規模統一多模態預訓練中獲益。

生成能力：像素空間同樣能打

在GenEval和DPG-Bench影像生成基準上，Tuna-R和Tuna-2均達到最優水準，與BAGEL、Mogao等方法競爭力相當。Tuna-R在生成任務上始終略優於Tuna-2，表明表徵編碼器引入的語義先驗有助於學習更強的生成模型。

[表3：GPT-5.4和Claude Opus 4.7評估結果] 在品質維度上Tuna-R略優（GPT-5.4下35.7% vs 32.1%），但在多樣性維度上Tuna-2大幅領先（GPT-5.4下48.4% vs 30.9%）。

論文還透過LLM評審評估生成品質與多樣性：取樣1500條文字提示，每個模型生成4張影像，由GPT-5.4和Claude Opus 4.7評判。Tuna-2在生成品質上與Tuna-R相當且優於Tuna，而在多樣性上顯著領先。

[表5：不同視覺分詞器的影像重建性能] Tuna-R和Tuna-2在統一分詞器中排名第一，接近FLUX.1[dev]-VAE等專用分詞器的水準。

在影像重建任務上，Tuna-R和Tuna-2在統一分詞器中排名第一，rFID分別達到0.12和0.15，SSIM均為0.93，接近專用影像分詞器FLUX.1[dev]-VAE的水準。

[圖7：Tuna-R、Tuna-2與其他基線模型的注意力圖可視化] 紅色區域表示高注意力分數，藍色區域表示低注意力分數。Tuna-2在基礎感知和反直覺場景中均展現出更準確的視覺-語言對齊。

注意力可視化：更精準的跨模態對齊

論文透過注意力圖可視化對比了Tuna-2與LLaVA-OneVision-1.5、Qwen2.5-VL、Penguin-VL等模型。在「發光窗戶」等基礎感知場景中，Tuna-2一致性地高亮語義相關區域，而其他模型往往只提供粗糙或不完整的定位。在「足球比賽踢飛玻璃杯」這類反直覺場景中，大多數模型被文本先驗或視覺干擾物誤導，而Tuna-2準確定位了與問題語義一致的關鍵物體。

迪迦怎麼看

從Tuna到Tuna-R再到Tuna-2，論文完成了一次徹底的「減法實驗」。最終結論清晰而有力：在充分的視覺預訓練之後，去掉預訓練視覺編碼器對於學習更強的細粒度視覺表徵是有利的。 像素空間統一建模不僅可行，而且在理解和生成兩端都展現出強競爭力與可擴展性。當模型夠大、資料夠多時，那些精心設計的編碼器模組，或許正是需要被丟掉的包袱。

📄 原文標題

Figure 1 Evolution of Tuna-2 architecture and multimodal performance comparison.

🔗 原文連結

https://arxiv.org/abs/2604.24763