視覚エンコーダーを除去したら、マルチモーダルモデルがむしろ強くなった？

マルチモーダル統一モデルの開発において、これまで確固たる共通認識がありました。画像を理解するには、CLIPやSigLIPといった事前学習済みの視覚エンコーダーで特徴を抽出し、画像を生成するには、VAEでピクセルを潜在空間に圧縮する必要がある、というものです。しかし、これらのエンコーダーをすべて取り除き、モデルに生のピクセルから直接学習させたら、何が起こるのでしょうか？

Tuna-2は、直感に反する答えを提示しています。十分な事前学習を行った後では、エンコーダーを完全に排除した設計が、マルチモーダル理解タスクにおいてエンコーダーを使用する方式を一貫して上回り、特に詳細な視覚認識が求められるベンチマークで顕著な優位性を示したのです。

[図1: Tuna-2アーキテクチャの進化とマルチモーダル性能の比較] 論文では、Tunaの視覚エンコーダーコンポーネントを段階的に排除しています。まずVAEを除去して表征エンコーダーのみを残したTuna-Rを構築し、さらに表征エンコーダーも除去して完全にエンコーダーフリーなTuna-2を実現しました。Tuna-2はピクセル埋め込みを用いて、複数のマルチモーダルベンチマークでTuna-RとTunaを上回りました。

段階的な排除：TunaからTuna-2へ

論文の核となる考え方は「削減」です。既存の統一マルチモーダルモデル（UMM）は通常、理解用の表征エンコーダー（SigLIPなど）と生成用のVAEという、二つの視覚エンコーダーを備えています。論文では、これらを二段階で一つずつ取り除きます。

第一段階では、VAEを取り除き表征エンコーダーを残し、中間生成物であるTuna-Rを作成します。Tuna-Rの理解部分は、従来のエンコーダー＋LLMパラダイムを踏襲していますが、生成部分はピクセル空間でのフローマッチングに変更され、JiTが提案したx-predictionとv-lossのパラダイムを採用しています。具体的には、元画像x₁とサンプリングされたノイズx₀から、線形スケジュールを用いてピクセル空間でノイズを加えたサンプルを構築します。モデルはクリーンな画像を直接予測し、その予測を速度項に変換して回帰学習を行います。

第二段階では、表征エンコーダーを除去し、単純なパッチ埋め込み層に置き換えて、最終的なTuna-2を実現します。モデル全体は単一のトランスフォーマーデコーダーに簡略化され、画像トークンとテキストトークンを直接処理します。この設計により、固定された入力解像度や、底層の視覚的詳細へのアクセス制限など、事前学習済みエンコーダーに内在する帰納バイアスが回避されます。

[図3: マスクベースの特徴学習スキームの模式図] 学習時には、学習可能なマスクトークンを用いてマルチモーダル理解を正則化し、視覚生成のためにマスク予測を実行します。

ピクセル空間の課題とマスク学習

VAEの除去は、視覚モデリングがコンパクトな潜在空間から高次元のピクセル空間へと移行することを意味します。これにより冗長な情報が大幅に増加し、モデルが本当に有用な視覚的手がかりを学習する代わりに、表面的な近道に依存しやすくなります。この問題に対処するため、論文ではマスクベースの視覚特徴学習方式を導入しています。

学習時には、一定のマスク率で画像パッチをランダムに選択し、学習可能なマスクトークンで置き換えてLLMデコーダーに入力します。同じマスク操作が、生成サンプルと理解サンプルで異なる役割を果たします。生成サンプルでは、部分的に可視化されたノイズ画像から、マスク領域と非マスク領域のクリーンな画像を予測する必要があり、より困難なノイズ除去問題を構築します。理解サンプルでは、部分的な視覚情報からマルチモーダル推論を完了する必要があり、正則化の役割を果たします。実験によると、Tuna-2はTuna-Rよりもマスク学習から大きな恩恵を受けており、これはTuna-Rが使用するSigLIP 2エンコーダー自体が、類似のマスク予測による事前学習を経ているためと推測されています。

二段階のエンドツーエンド学習

エンコーダーフリーの設計により、Tuna-2は接続層を個別に学習することなく、完全なエンドツーエンド学習が可能です。学習は二段階で行われます。

第一段階は全モデルの事前学習で、5.5億組の内部画像テキストペアを使用します。その内訳は、70%が画像キャプションデータ、30%が画像生成用データです。さらに、総事前学習データの20%に相当するNemotronのプレーンテキストデータが追加されます。64ノードで学習率1×10⁻⁴、30万ステップの学習を実施します。第二段階は教師ありファインチューニング（SFT）で、1,300万件のFineVision対話サンプルと約200万件のOmniEdit画像編集サンプルを使用し、学習率2×10⁻⁵で5万ステップ学習します。全段階で、GPUあたりの入力シーケンス長は16kトークンにパディングされます。

LLMデコーダーはQwen2.5-7B-Instructで統一されています。Tuna-Rは追加でSigLIP 2 So400Mを表征エンコーダーとして使用し、第一段階の前に3,000ステップの接続層アライメント段階を設けています。

理解能力：エンコーダーなしがエンコーダーありを逆転

論文では、GQA、RealWorldQA、MMVet、MMMU、MMVP、SEED-Bench2+、AI2D、ChartQA、OCRBenchを含む9つのVQAベンチマークで画像理解能力を評価しています。その結果、Tuna-RとTuna-2は共にTunaを上回り、7B規模のネイティブUMMの中で最高性能を達成しました。注目すべきは、Tuna-2が表征エンコーダーを単純なパッチ化層で置き換えたにもかかわらず、理解性能がTuna-Rを上回った点です。

V*、CountBench、VisuLogicといった詳細な視覚推論を重視するベンチマークでは、Tuna-RとTuna-2が共にShow-o2やTunaなどの潜在空間UMMを上回っており、詳細な視覚推論におけるピクセル空間視覚表現の必要性が示されました。

[図6: Tuna-RとTuna-2の正解率の学習データ規模による変化] OCRBench、MMVP、V*の三つの理解ベンチマークでは、学習初期にはTuna-Rがリードしていましたが、Tuna-2が追いつき、最終的に逆転しました。GenEval生成ベンチマークでは、Tuna-Rが一貫してわずかに優れていますが、その差は学習規模の増大とともに縮小しています。

学習のダイナミクス分析から、興味深い現象が明らかになりました。学習初期には、Tuna-Rが事前学習済みエンコーダーの意味的な事前知識により理解タスクをリードしますが、学習データが増えるにつれてTuna-2が徐々に追いつき、逆転します。これは、モノリシックなエンコーダーフリー設計の方が、大規模な統一マルチモーダル事前学習から恩恵を受けやすいことを示しています。

生成能力：ピクセル空間でも互角に戦える

GenEvalとDPG-Benchの画像生成ベンチマークでは、Tuna-RとTuna-2が共に最高水準に達し、BAGELやMogaoといった手法と同等の競争力を持っています。Tuna-Rは生成タスクにおいて一貫してTuna-2をわずかに上回っており、表征エンコーダーが導入する意味的事前知識が、より強力な生成モデルの学習に寄与していることを示しています。

[表3: GPT-5.4とClaude Opus 4.7による評価結果] 品質面ではTuna-Rがわずかに優れていますが（GPT-5.4において35.7% vs 32.1%）、多様性の面ではTuna-2が大幅にリードしています（GPT-5.4において48.4% vs 30.9%）。

論文では、LLMを用いた審査によって生成品質と多様性も評価しています。1,500件のテキストプロンプトをサンプリングし、各モデルが4枚の画像を生成し、GPT-5.4とClaude Opus 4.7が判定しました。Tuna-2は生成品質においてTuna-Rと同等でTunaより優れており、多様性においては顕著にリードしています。

[表5: 異なる視覚トークナイザーの画像再構成性能] Tuna-RとTuna-2は統一トークナイザーの中で第1位であり、FLUX.1[dev]-VAEのような専用トークナイザーの水準に迫っています。

画像再構成タスクでは、Tuna-RとTuna-2が統一トークナイザーの中で第1位となり、rFIDはそれぞれ0.12と0.15、SSIMは共に0.93を達成し、専用画像トークナイザーFLUX.1[dev]-VAEの水準に迫りました。

[図7: Tuna-R、Tuna-2、その他ベースラインモデルのアテンションマップの可視化] 赤い領域は高いアテンションスコア、青い領域は低いアテンションスコアを示します。Tuna-2は、基本的な知覚と直感に反するシナリオの両方で、より正確な視覚-言語アライメントを示しています。

アテンションの可視化：より正確なクロスモーダルアライメント

論文では、アテンションマップの可視化を通じて、Tuna-2をLLaVA-OneVision-1.5、Qwen2.5-VL、Penguin-VLなどのモデルと比較しています。「光る窓」のような基本的な知覚シーンでは、Tuna-2は意味的に関連する領域を一貫して強調する一方で、他のモデルは粗い、または不完全な位置特定しか提供しないことが多いです。「サッカーの試合で蹴られたガラスのコップ」のような直感に反するシナリオでは、ほとんどのモデルがテキストの先入観や視覚的な妨害物に惑わされる中で、Tuna-2は質問の意味と一致するキーオブジェクトを正確に特定しました。

所感

TunaからTuna-R、そしてTuna-2へと至る過程で、論文は徹底的な「引き算の実験」を完遂しました。最終的な結論は明快かつ力強いものです。十分な視覚的事前学習の後では、事前学習済みの視覚エンコーダーを取り除くことが、より強力な詳細視覚表現の学習に有利であるということです。ピクセル空間での統一モデリングは実現可能であるだけでなく、理解と生成の両面で強力な競争力と拡張性を示しています。モデルが十分に大きく、データが十分に多い場合、これまで慎重に設計されてきたエンコーダーモジュールこそが、捨て去るべき重荷なのかもしれません。

📄 原著論文タイトル

Figure 1 Evolution of Tuna-2 architecture and multimodal performance comparison.

🔗 原著論文リンク

https://arxiv.org/abs/2604.24763