近期 AI 研究圈出現明顯的風向轉變。學界與產業界不再滿足於「讓大型語言模型（LLM）回答正確」，而是開始深究「如何讓模型思考得對」。特別是當 LLM 被整合進多輪互動的 Agent（智慧體）框架時，模型不再是一次性輸出答案，而是必須像人類一樣進行觀察、思考、行動，接著再次思考。一旦這個過程進入強化學習（RL）階段，訓練就演變成一場關於「推理品質」的持久戰。

史丹佛大學李飛飛教授團隊近期的研究，正是將這場持久戰中最隱蔽、最危險的癥結點挖了出來。

01 為何 RAGEN-2 值得被重新定義？

過去幾年，Agent 訓練的穩定性幾乎完全依賴兩個指標：獎勵（Reward）與熵（Entropy）。獎勵代表結果的好壞，熵則代表推理過程是否具備多樣性。業界普遍預設，只要這兩個指標穩定，就意味著模型訓練處於健康狀態。

然而，RAGEN-2 的出現徹底顛覆了這套邏輯。

研究團隊指出：「熵」其實是一個極具誤導性的錯覺。模型的推理過程完全可能在「熵看起來正常」的情況下，悄悄地、系統性地崩潰。表面上看，模型似乎正在認真「思考」，但實際上它已不再聆聽輸入內容，僅僅是在重複一套固定的腳本模板。

這正是 RAGEN-2 提出的核心問題：推理崩潰（Reasoning Collapse）。

為了捕捉這種隱蔽的崩潰現象，研究團隊提出了兩項關鍵工具。其一是互信息代理（MI Proxy），用於判斷模型的推理是否真正依賴於輸入內容；其二是信噪比理論（SNR View），用於解釋為何強化學習會將模型推向「模板化推理」的深淵。

該項目的陣容極為堅強，核心團隊來自西北大學（Northwestern University），並聯合了史丹佛大學（含李飛飛、Yejin Choi、Jiajun Wu 等教授）、微軟研究院、牛津大學、倫敦帝國學院、伊利諾大學香檳分校（UIUC）等頂尖機構。

專案主頁與完整程式碼請見：https://ragen-ai.github.io/v2/

02 什麼是推理崩潰？為何過去無人察覺？

「推理崩潰」一詞聽來抽象，但描述的卻是一種直觀現象：模型看似在認真思考，但其思考內容與輸入問題毫無關聯。

這就像你詢問某人「今天上海天氣如何？」，對方卻每次都回答「讓我一步一步想清楚這個任務」。你會以為他在思考，但實際上他根本沒在聽你說話。

RAGEN-2 正是將這種「假思考」現象進行了系統性的揭露。

傳統指標的盲點：熵僅能看見「內部多樣性」

為何過去無人發現推理崩潰？因為大家一直緊盯著「熵」。

熵（H(Z|X)）這個指標，只能反映「在同一個輸入下，模型的推理是否多樣」。如果模型針對同一個輸入生成了多條不同的推理鏈，熵值就會很高。

問題在於，熵完全無法判斷這些推理鏈是否真的與輸入相關。

這導致了一種極度危險的狀況：模型的熵值看起來非常健康，但其推理邏輯已完全脫離輸入，進入一種「模板化的自言自語」狀態。

研究團隊用一個關鍵公式解釋了為何熵不足以為憑：

熵與互信息的數學關係圖

熵只是公式右側的第二項。真正衡量「推理是否依賴輸入」的，是互信息 I(X;Z)。

換言之，熵高不代表推理品質好，甚至可能掩蓋了推理正在崩潰的事實。

模板崩潰的定義：高熵 + 低互信息

RAGEN-2 將此現象命名為「模板崩潰（Template Collapse）」。

其特徵極為鮮明：推理鏈條看起來豐富多樣，但在不同輸入之間卻幾乎一模一樣。模型彷彿背誦了一套「萬能推理模板」，無論你問什麼，它開頭必定是：「Let me think step by step...（讓我一步步思考）」或是「I need to solve this task carefully.（我需要仔細解決這個任務）」。這些句子看似推理，实则完全不依賴輸入內容。

這並非偶然，而是多輪 Agent 強化學習中的系統性失效模式。

四象限推理狀態圖：熵 × 互信息

研究團隊將推理狀態劃分為四種，十分直觀：

高熵、高互信息：模型的推理既多樣又依賴輸入，這是理想狀態。
高熵、低互信息：即為模板崩潰。模型看似在思考，實則在「背稿」。
低熵、高互信息：模型推理高度依賴輸入，但過於確定，類似死記硬背。
低熵、低互信息：完全退化，模型既不具備多樣性，也不聽取輸入。

這四種狀態中，最危險的莫過於模板崩潰，因為它最容易被高熵值「偽裝」成健康狀態。

四象限推理狀態圖

圖 1 | 左：輸入驅動的推理能適應當前狀態；模板推理則在不同輸入中產生幾乎相同的回應。右：四種推理機制，沿著兩個軸進行描述：條件熵 H(Z|X)（輸入多樣性範圍內）與相互信息 I(X;Z)（輸入依賴性）。

03 RAGEN-2：以互信息視角重構推理品質

如果說 RAGEN-2 的第一重貢獻是「發現問題」，那麼第二重貢獻便是「重新定義何謂推理品質」。過去我們過度依賴熵，認為推理多樣就代表模型在認真思考。但 RAGEN-2 告訴我們，推理多樣不等於推理有效，甚至可能是推理正在崩潰的假象。

真正能衡量推理品質的，是互信息（Mutual Information, MI）。

這一點在研究中被一個經典的信息論公式點破：

信息論公式圖解

這行公式的意義非常直白。左邊是推理的總熵，右邊分為兩部分：

H(Z|X) 代表「同一個輸入內部的多樣性」。
I(X;Z) 代表「推理是否真的依賴輸入」。

過去大家只看 H(Z|X)，也就是關注「推理是不是多樣」；但真正重要的是 I(X;Z)，也就是「推理是不是聽輸入的」。

這就像評閱學生的作文，寫得花俏不代表他讀懂了題目。MI 才是判斷他是否真正理解題意的關鍵。

RAGEN-2 的貢獻，在於將 MI 從理論層面拉出，轉化為訓練過程中可即時監控的指標。

MI Proxy：如何在訓練中即時估計互信息？

互信息本身難以直接計算，因為推理鏈屬於高維離散序列。RAGEN-2 的巧妙之處在於，它不強行計算 MI，而是設計了一套「互信息代理指標」，利用訓練過程中的數據即可估算。

核心方法稱為In-Batch Cross-Scoring（批次內交叉評分）。

簡單來說，就是將每條推理鏈 Zᵢ,k 拿去與所有輸入 Xⱼ 進行一次「匹配度評分」，觀察它究竟更像是從哪個輸入生成的。

如果推理真的依賴輸入，那麼 Zᵢ,k 在其對應的輸入 Xᵢ 上得分應最高。
如果推理已經模板化，那麼它在所有輸入上的得分都差不多。

研究團隊將這個評分拆解為兩個量：matched（推理在真實輸入上的 log-prob）與 marginal（推理在所有輸入混合上的 log-prob）。這兩者的差值，即是互信息的影子。

基於此思想，團隊提出了兩項主力指標：

Retrieval-Accuracy（檢索準確率）：觀察推理鏈能否「認回自己的輸入」。若模型崩潰，此準確率將跌至隨機水平。
MI-ZScore-EMA：將 matched 減去 marginal 製成連續指標，並加入 z-score 與 EMA 平滑處理。此指標更穩定，更適合用於訓練監控。

最关键的是，這些指標不需要額外模型，也不需要額外推理，僅透過訓練過程本身即可計算得出。這讓 MI 從一個「理論概念」轉變為「工程可用的監控信號」。

MI 與任務性能的強相關性

RAGEN-2 的實驗中有一個震撼的發現：MI 與最終任務成功率的相關性極高。相反地，熵與任務成功率的相關性不僅低，甚至呈現負相關。

換句話說，熵越高，任務表現可能越差。這就像看到一個人說話越來越流利，但內容卻越來越離譜。

這說明熵不僅不可靠，還可能誤導訓練判斷；而 MI 才是真正能告訴你「模型有沒有在認真思考」的指標。

RAGEN-2 在此所做之事，本質上是將「推理品質」從一個模糊概念，轉化為可量化、可監控、可優化的指標體系。

04 推理崩潰的根因：SNR（信噪比）機制

如果說 MI Proxy 是「診斷工具」，那麼 SNR 理論就是「病因分析」。RAGEN-2 的第三大貢獻，在於解釋了為何 RL 會導致模型推理崩潰。這也是研究團隊最具洞察力的部分。

RL 更新的信噪比示意圖

圖 2 | RL 更新的信噪比（SNR）示意圖。左：總梯度分解為任務梯度（隨著輸入獎勵方差的增加而銳化）和正規化梯度。正確的高獎勵方差產生強任務梯度和更好的收斂性（高信噪比）；低獎勵方差使正規化梯度佔主導地位，產生不穩定的更新和輸入無關的推理（低信噪比）。

關鍵發現：獎勵方差決定任務梯度強度

研究團隊的實驗發現非常清晰：

當一個輸入的獎勵方差（Reward Variance）高時，模型能從不同軌跡中學到有用的信號，任務梯度強，推理自然會依賴輸入。
當獎勵方差低時，模型幾乎學不到什麼有用差異，任務梯度變弱，而正規項（KL 散度 + 熵）就會成為主導力量。

這導致推理被「推向模板化」。

高獎勵方差 → 強任務信號 → 推理依賴輸入
低獎勵方差 → 任務信號弱 → 正規項主導 → 推理模板化

這就是推理崩潰的根本誘因。

梯度分解：任務信號 vs 任務噪聲 vs 正規噪聲

研究團隊將 RL 的梯度拆解為三部分：

梯度分解公式圖

其中，g_signal 是真正有用的任務信號，g_task-noise 是採樣噪聲，g_reg 則是 KL 和熵的正規項。

當獎勵方差低時，g_signal 會趨近於 0。但 g_reg 完全不會變小，它是輸入無關的「統一收縮力」。於是 g_reg 就成了主導力量，把推理往「輸入無關的模板」方向拉。

這就是為什麼模型會出現「看似在思考，實則在背模板」的現象。

提示分為六個大小相等的獎勵方差桶

圖 3 | 提示分為六個大小相等的獎勵方差桶 Q1-Q6。我們發現：（a）任務梯度範數隨桶 RV 單調增加；（b）當 RV 接近 0 時，儘管幾乎沒有攜帶有用信號，但任務梯度仍然存在；（c）正規化器梯度範數（KL+ 熵）在桶內是平坦的。這直接支持兩種算法下的信噪比機制。

低獎勵方差的危險性

最危險的地方在於，即使獎勵方差接近 0，梯度範數仍然不為 0，因為正規項仍然在「強推」。這意味著模型會持續更新，但更新方向完全與任務無關，導致推理越來越偏離輸入，越來越模板化。這就是推理崩潰的根本原因，也是為什麼熵會誤導訓練判斷。

05 解決方案：SNR-Aware Filtering（信噪比感知過濾）

當 RAGEN-2 挖出「推理崩潰」這個隱蔽問題後，最關鍵的便是如何解決。研究團隊給出的答案非常工程化：它沒有引入複雜的新模型，也沒有修改 RL 的核心結構，而是提出了一種輕量級、幾乎零成本的策略——SNR-Aware Filtering。

信噪比感知過濾工作流程圖

圖 4 | 信噪比感知過濾工作流程。在每次訓練迭代中：（1）滾動生成收集軌跡；（2）將即時獎勵內方差作為信噪比代理計算；（3）提示按 RV 排名，保留 top-p 分數，僅對高信號子集執行策略更新。這種過濾循環可以防止對嘈雜的展開進行更新，並且不需要標準 RL 之外的額外模型/展開。

這個方法的核心思想很樸素：既然推理崩潰的根因是「低獎勵方差導致任務信號弱、正規項主導更新」，那就讓模型盡量只從「高獎勵方差」的樣本裡學習。每次訓練都只保留那些真正能提供任務信號的 prompts，將那些獎勵方差幾乎為零、只會帶來正規噪聲的 prompts 過濾掉。

這就像你在嘈雜的房間裡想聽清一個人的講話，你會靠近那個聲音更清晰的人，而不是讓所有噪聲一起灌進耳朵。

SNR-Aware Filtering 做的，就是讓模型「靠近信號，遠離噪聲」。

核心思想

訓練時的每一批數據裡，都會包含一些「高方差、高信號」的 prompts，也會包含一些「低方差、低信號」的 prompts。後者的問題在於，它們的獎勵幾乎沒有差異，導致任務梯度幾乎為零，但正規項仍然在強推，於是模型就被往「模板化推理」方向拉。

SNR-Aware Filtering 的做法，就是每次訓練只保留獎勵方差最高的 top-p prompts，把低方差的 prompts 全部過濾掉。

高方差意味著高信號，低方差意味著高噪聲。過濾掉噪聲，保留信號，推理結構自然就能保持輸入依賴。

方法流程

研究團隊在圖 4 中將整個流程畫得非常清楚，我們可以用更白話的方式重述一遍：

訓練開始時，模型像往常一樣採樣多條軌跡。
每個 prompt 都會得到一組獎勵值。
計算每個 prompt 的獎勵方差。
把所有 prompts 按方差從高到低排序。
保留 top-p 的那一部分，其餘全部丟棄。
最後只用這些「高信號 prompts」來更新模型參數。

整個過程不需要額外模型、不需要額外推理、不需要額外算力，只是把訓練數據做了一次「按信號強度排序的篩選」。但效果卻非常顯著。

為什麼有效？

SNR-Aware Filtering 的有效性來自一個直觀的數學事實。在 RL 的梯度分解裡：

梯度分解數學公式

當獎勵方差低時，g_signal 會趨近於 0，但 g_reg 完全不會變小，它是輸入無關的「統一收縮力」。於是 g_reg 就成了主導力量，把推理往「輸入無關的模板」方向拉。

SNR-Aware Filtering 的作用，就是把那些 g_signal ≈ 0 的 prompts 全部過濾掉，讓模型只在 g_signal 足夠強的樣本上更新。這會帶來三個直接效果：

梯度 SNR 被顯著提升
任務信號被保留下來
正規噪聲被抑制

最終結果是，模型的推理重新變得「聽輸入的」，互信息 MI 上升，模板化推理被抑制。

這是一種非常「工程友好」的解決方案，不需要改模型、不需要改算法，只需要改變訓練數據的選擇方式。

06 實驗：跨任務、跨算法、跨規模的驗證

RAGEN-2 的實驗部分非常紮實，覆蓋了七大環境、四類 RL 算法、多個模型規模。它不是在小玩具任務上證明方法有效，而是在一整套真實的、多模態、多輪、多決策環境裡驗證推理崩潰的普遍性和 SNR Filtering 的有效性。

不同干預策略下的訓練動態圖

圖 5 | 不同干預策略下的訓練動態。（a）任務成功率，（b）MI 代理（檢索準確性），以及（c）推理熵。如果不進行過濾，MI 會在熵峰值時早期降解，信號模板會崩潰。濾波有效地緩解了檢索準確性的下降，top-p SNR Aware 濾波最好地保留了任務性能和推理多樣性。

七大環境覆蓋多模態、多任務、多決策類型

研究團隊選取的七個環境極具代表性，幾乎涵蓋了當前 Agent 研究的所有關鍵場景：

Sokoban：不可逆規劃任務，考驗模型的長期推理能力。
FrozenLake：隨機導航任務，考驗模型在不確定環境下的策略穩定性。
MetaMathQA：數學推理任務，考驗模型的符號推理能力。
Countdown：算式構造任務，考驗模型的組合推理能力。
SearchQA：多輪檢索任務，考驗模型的信息整合能力。
WebShop：網頁導航任務，考驗模型的工具使用與決策能力。
DeepCoder：代碼合成任務，考驗模型的程序推理能力。

這些任務的共同點是都需要模型在多輪互動中保持穩定、輸入依賴的推理結構。RAGEN-2 的實驗顯示，推理崩潰在這些任務中普遍存在，而 SNR Filtering 在這些任務中普遍有效。

關鍵實驗現象

實驗中最重要的三個現象非常值得強調：

互信息 MI 的下降早於性能下降，是更敏感的診斷指標。
熵在崩潰過程中保持高位，完全無法反映問題。
SNR Filtering 顯著提升 MI 與任務成功率。

這說明 MI Proxy 不只是一個「好看的指標」，而是真正能提前預警推理崩潰的信號。而 SNR Filtering 則是一個真正能阻止崩潰、恢復推理品質的解決方案。

不同 RL 算法的一致性

研究團隊還在 PPO、GRPO、DAPO、Dr.GRPO 四種 RL 算法上驗證了推理崩潰的普遍性。結果非常一致：推理崩潰是算法無關的系統性問題，SNR Filtering 是普適解決方案。

這意味著推理崩潰不是某個算法的 bug，而是多輪 Agent RL 的結構性風險；而 SNR Filtering 則是一個結構性修復。

過濾策略比較圖

圖 6 | 顯示頂部的過濾策略比較 - p 持續超越 Top-k 並且在四個環境中沒有過濾器基線。

07 Agentic RL 的新範式

RAGEN-2 的意義遠不止提出一個新指標或新技巧。它實際上重塑了我們理解 Agent 推理品質的方式，也重塑了我們訓練 Agent 的範式。

RAGEN-2 將推理品質的衡量從「熵」轉向「互信息」；將 RL 訓練穩定性的理解從「獎勵」轉向「SNR」；將推理崩潰從一個模糊現象變成一個可解釋、可診斷、可干預的機制。這為未來的 Agentic RL 提供了一個新的理論框架。

MI Proxy 可以直接整合到現有的 RLHF、GRPO、PPO 訓練管線裡。
SNR Filtering 是一種輕量級、幾乎零成本的增強方法。
對多模態 Agent、工具使用 Agent、Web Agent 都有價值。

這意味著 RAGEN-2 的方法不是「只能在研究團隊裡跑」，而是可以直接落地到真實系統裡。

Agent 時代的核心問題已不再是「模型能力」，而是「推理穩定性」。RAGEN-2 提供了穩定性評估與訓練的新標準，對 AI Agent 的產品化具有直接影響。

未來的 Agent 系統，不再只是比誰能調用更多工具、執行更多步驟，而是比誰能在多輪推理中保持穩定、可靠、輸入依賴的思考結構。RAGEN-2 給了我們一套方法，讓這種穩定性變得可控。（END）

參考資料：https://arxiv.org/pdf/2604.06268

文章結束圖示

李飛飛團隊最新研究：從熵到互信息，RAGEN-2 重塑推理品質標準，終結 AI Agent「越訓越模板化」困境