李飛飛團隊最新研究:從熵到互信息,RAGEN-2 重塑推理品質標準,終結 AI Agent「越訓越模板化」困境

近期 AI 研究圈出現明顯的風向轉變。學界與產業界不再滿足於「讓大型語言模型(LLM)回答正確」,而是開始深究「如何讓模型思考得對」。特別是當 LLM 被整合進多輪互動的 Agent(智慧體)框架時,模型不再是一次性輸出答案,而是必須像人類一樣進行觀察、思考、行動,接著再次思考。一旦這個過程進入強化學習(RL)階段,訓練就演變成一場關於「推理品質」的持久戰。

史丹佛大學李飛飛教授團隊近期的研究,正是將這場持久戰中最隱蔽、最危險的癥結點挖了出來。

01 為何 RAGEN-2 值得被重新定義?

過去幾年,Agent 訓練的穩定性幾乎完全依賴兩個指標:獎勵(Reward)與熵(Entropy)。獎勵代表結果的好壞,熵則代表推理過程是否具備多樣性。業界普遍預設,只要這兩個指標穩定,就意味著模型訓練處於健康狀態。

然而,RAGEN-2 的出現徹底顛覆了這套邏輯。

研究團隊指出:「熵」其實是一個極具誤導性的錯覺。模型的推理過程完全可能在「熵看起來正常」的情況下,悄悄地、系統性地崩潰。表面上看,模型似乎正在認真「思考」,但實際上它已不再聆聽輸入內容,僅僅是在重複一套固定的腳本模板。

這正是 RAGEN-2 提出的核心問題:推理崩潰(Reasoning Collapse)

為了捕捉這種隱蔽的崩潰現象,研究團隊提出了兩項關鍵工具。其一是互信息代理(MI Proxy),用於判斷模型的推理是否真正依賴於輸入內容;其二是信噪比理論(SNR View),用於解釋為何強化學習會將模型推向「模板化推理」的深淵。

該項目的陣容極為堅強,核心團隊來自西北大學(Northwestern University),並聯合了史丹佛大學(含李飛飛、Yejin Choi、Jiajun Wu 等教授)、微軟研究院、牛津大學、倫敦帝國學院、伊利諾大學香檳分校(UIUC)等頂尖機構。

專案主頁與完整程式碼請見:https://ragen-ai.github.io/v2/

02 什麼是推理崩潰?為何過去無人察覺?

「推理崩潰」一詞聽來抽象,但描述的卻是一種直觀現象:模型看似在認真思考,但其思考內容與輸入問題毫無關聯。

這就像你詢問某人「今天上海天氣如何?」,對方卻每次都回答「讓我一步一步想清楚這個任務」。你會以為他在思考,但實際上他根本沒在聽你說話。

RAGEN-2 正是將這種「假思考」現象進行了系統性的揭露。

傳統指標的盲點:熵僅能看見「內部多樣性」

為何過去無人發現推理崩潰?因為大家一直緊盯著「熵」。

熵(H(Z|X))這個指標,只能反映「在同一個輸入下,模型的推理是否多樣」。如果模型針對同一個輸入生成了多條不同的推理鏈,熵值就會很高。

問題在於,熵完全無法判斷這些推理鏈是否真的與輸入相關

這導致了一種極度危險的狀況:模型的熵值看起來非常健康,但其推理邏輯已完全脫離輸入,進入一種「模板化的自言自語」狀態。

研究團隊用一個關鍵公式解釋了為何熵不足以為憑:

熵與互信息的數學關係圖

熵只是公式右側的第二項。真正衡量「推理是否依賴輸入」的,是互信息 I(X;Z)。

換言之,熵高不代表推理品質好,甚至可能掩蓋了推理正在崩潰的事實。

模板崩潰的定義:高熵 + 低互信息

RAGEN-2 將此現象命名為「模板崩潰(Template Collapse)」

其特徵極為鮮明:推理鏈條看起來豐富多樣,但在不同輸入之間卻幾乎一模一樣。模型彷彿背誦了一套「萬能推理模板」,無論你問什麼,它開頭必定是:「Let me think step by step...(讓我一步步思考)」或是「I need to solve this task carefully.(我需要仔細解決這個任務)」。這些句子看似推理,实则完全不依賴輸入內容。

這並非偶然,而是多輪 Agent 強化學習中的系統性失效模式。

四象限推理狀態圖:熵 × 互信息

研究團隊將推理狀態劃分為四種,十分直觀:

  • 高熵、高互信息:模型的推理既多樣又依賴輸入,這是理想狀態。
  • 高熵、低互信息:即為模板崩潰。模型看似在思考,實則在「背稿」。
  • 低熵、高互信息:模型推理高度依賴輸入,但過於確定,類似死記硬背。
  • 低熵、低互信息:完全退化,模型既不具備多樣性,也不聽取輸入。

這四種狀態中,最危險的莫過於模板崩潰,因為它最容易被高熵值「偽裝」成健康狀態。

四象限推理狀態圖

圖 1 | 左:輸入驅動的推理能適應當前狀態;模板推理則在不同輸入中產生幾乎相同的回應。右:四種推理機制,沿著兩個軸進行描述:條件熵 H(Z|X)(輸入多樣性範圍內)與相互信息 I(X;Z)(輸入依賴性)。

03 RAGEN-2:以互信息視角重構推理品質

如果說 RAGEN-2 的第一重貢獻是「發現問題」,那麼第二重貢獻便是「重新定義何謂推理品質」。過去我們過度依賴熵,認為推理多樣就代表模型在認真思考。但 RAGEN-2 告訴我們,推理多樣不等於推理有效,甚至可能是推理正在崩潰的假象。

真正能衡量推理品質的,是互信息(Mutual Information, MI)

這一點在研究中被一個經典的信息論公式點破:

信息論公式圖解

這行公式的意義非常直白。左邊是推理的總熵,右邊分為兩部分:

  • H(Z|X) 代表「同一個輸入內部的多樣性」。
  • I(X;Z) 代表「推理是否真的依賴輸入」。

過去大家只看 H(Z|X),也就是關注「推理是不是多樣」;但真正重要的是 I(X;Z),也就是「推理是不是聽輸入的」。

這就像評閱學生的作文,寫得花俏不代表他讀懂了題目。MI 才是判斷他是否真正理解題意的關鍵。

RAGEN-2 的貢獻,在於將 MI 從理論層面拉出,轉化為訓練過程中可即時監控的指標。

MI Proxy:如何在訓練中即時估計互信息?

互信息本身難以直接計算,因為推理鏈屬於高維離散序列。RAGEN-2 的巧妙之處在於,它不強行計算 MI,而是設計了一套「互信息代理指標」,利用訓練過程中的數據即可估算。

核心方法稱為In-Batch Cross-Scoring(批次內交叉評分)

簡單來說,就是將每條推理鏈 Zᵢ,k 拿去與所有輸入 Xⱼ 進行一次「匹配度評分」,觀察它究竟更像是從哪個輸入生成的。

  • 如果推理真的依賴輸入,那麼 Zᵢ,k 在其對應的輸入 Xᵢ 上得分應最高。
  • 如果推理已經模板化,那麼它在所有輸入上的得分都差不多。

研究團隊將這個評分拆解為兩個量:matched(推理在真實輸入上的 log-prob)與 marginal(推理在所有輸入混合上的 log-prob)。這兩者的差值,即是互信息的影子。

基於此思想,團隊提出了兩項主力指標:

  1. Retrieval-Accuracy(檢索準確率):觀察推理鏈能否「認回自己的輸入」。若模型崩潰,此準確率將跌至隨機水平。
  2. MI-ZScore-EMA:將 matched 減去 marginal 製成連續指標,並加入 z-score 與 EMA 平滑處理。此指標更穩定,更適合用於訓練監控。

最关键的是,這些指標不需要額外模型,也不需要額外推理,僅透過訓練過程本身即可計算得出。這讓 MI 從一個「理論概念」轉變為「工程可用的監控信號」。

MI 與任務性能的強相關性

RAGEN-2 的實驗中有一個震撼的發現:MI 與最終任務成功率的相關性極高。相反地,熵與任務成功率的相關性不僅低,甚至呈現負相關。

換句話說,熵越高,任務表現可能越差。這就像看到一個人說話越來越流利,但內容卻越來越離譜。

這說明熵不僅不可靠,還可能誤導訓練判斷;而 MI 才是真正能告訴你「模型有沒有在認真思考」的指標。

RAGEN-2 在此所做之事,本質上是將「推理品質」從一個模糊概念,轉化為可量化、可監控、可優化的指標體系。

04 推理崩潰的根因:SNR(信噪比)機制

如果說 MI Proxy 是「診斷工具」,那麼 SNR 理論就是「病因分析」。RAGEN-2 的第三大貢獻,在於解釋了為何 RL 會導致模型推理崩潰。這也是研究團隊最具洞察力的部分。

RL 更新的信噪比示意圖

圖 2 | RL 更新的信噪比(SNR)示意圖。左:總梯度分解為任務梯度(隨著輸入獎勵方差的增加而銳化)和正規化梯度。正確的高獎勵方差產生強任務梯度和更好的收斂性(高信噪比);低獎勵方差使正規化梯度佔主導地位,產生不穩定的更新和輸入無關的推理(低信噪比)。

關鍵發現:獎勵方差決定任務梯度強度

研究團隊的實驗發現非常清晰:

  • 當一個輸入的獎勵方差(Reward Variance)高時,模型能從不同軌跡中學到有用的信號,任務梯度強,推理自然會依賴輸入。
  • 獎勵方差低時,模型幾乎學不到什麼有用差異,任務梯度變弱,而正規項(KL 散度 + 熵)就會成為主導力量。

這導致推理被「推向模板化」。

高獎勵方差 → 強任務信號 → 推理依賴輸入
低獎勵方差 → 任務信號弱 → 正規項主導 → 推理模板化

這就是推理崩潰的根本誘因。

梯度分解:任務信號 vs 任務噪聲 vs 正規噪聲

研究團隊將 RL 的梯度拆解為三部分:

梯度分解公式圖

其中,g_signal 是真正有用的任務信號,g_task-noise 是採樣噪聲,g_reg 則是 KL 和熵的正規項。

當獎勵方差低時,g_signal 會趨近於 0。但 g_reg 完全不會變小,它是輸入無關的「統一收縮力」。於是 g_reg 就成了主導力量,把推理往「輸入無關的模板」方向拉。

這就是為什麼模型會出現「看似在思考,實則在背模板」的現象。

提示分為六個大小相等的獎勵方差桶

圖 3 | 提示分為六個大小相等的獎勵方差桶 Q1-Q6。我們發現:(a)任務梯度範數隨桶 RV 單調增加;(b)當 RV 接近 0 時,儘管幾乎沒有攜帶有用信號,但任務梯度仍然存在;(c)正規化器梯度範數(KL+ 熵)在桶內是平坦的。這直接支持兩種算法下的信噪比機制。

低獎勵方差的危險性

最危險的地方在於,即使獎勵方差接近 0,梯度範數仍然不為 0,因為正規項仍然在「強推」。這意味著模型會持續更新,但更新方向完全與任務無關,導致推理越來越偏離輸入,越來越模板化。這就是推理崩潰的根本原因,也是為什麼熵會誤導訓練判斷。

05 解決方案:SNR-Aware Filtering(信噪比感知過濾)

當 RAGEN-2 挖出「推理崩潰」這個隱蔽問題後,最關鍵的便是如何解決。研究團隊給出的答案非常工程化:它沒有引入複雜的新模型,也沒有修改 RL 的核心結構,而是提出了一種輕量級、幾乎零成本的策略——SNR-Aware Filtering

信噪比感知過濾工作流程圖

圖 4 | 信噪比感知過濾工作流程。在每次訓練迭代中:(1)滾動生成收集軌跡;(2)將即時獎勵內方差作為信噪比代理計算;(3)提示按 RV 排名,保留 top-p 分數,僅對高信號子集執行策略更新。這種過濾循環可以防止對嘈雜的展開進行更新,並且不需要標準 RL 之外的額外模型/展開。

這個方法的核心思想很樸素:既然推理崩潰的根因是「低獎勵方差導致任務信號弱、正規項主導更新」,那就讓模型盡量只從「高獎勵方差」的樣本裡學習。每次訓練都只保留那些真正能提供任務信號的 prompts,將那些獎勵方差幾乎為零、只會帶來正規噪聲的 prompts 過濾掉。

這就像你在嘈雜的房間裡想聽清一個人的講話,你會靠近那個聲音更清晰的人,而不是讓所有噪聲一起灌進耳朵。

SNR-Aware Filtering 做的,就是讓模型「靠近信號,遠離噪聲」

核心思想

訓練時的每一批數據裡,都會包含一些「高方差、高信號」的 prompts,也會包含一些「低方差、低信號」的 prompts。後者的問題在於,它們的獎勵幾乎沒有差異,導致任務梯度幾乎為零,但正規項仍然在強推,於是模型就被往「模板化推理」方向拉。

SNR-Aware Filtering 的做法,就是每次訓練只保留獎勵方差最高的 top-p prompts,把低方差的 prompts 全部過濾掉。

高方差意味著高信號,低方差意味著高噪聲。過濾掉噪聲,保留信號,推理結構自然就能保持輸入依賴。

方法流程

研究團隊在圖 4 中將整個流程畫得非常清楚,我們可以用更白話的方式重述一遍:

  1. 訓練開始時,模型像往常一樣採樣多條軌跡。
  2. 每個 prompt 都會得到一組獎勵值。
  3. 計算每個 prompt 的獎勵方差。
  4. 把所有 prompts 按方差從高到低排序。
  5. 保留 top-p 的那一部分,其餘全部丟棄。
  6. 最後只用這些「高信號 prompts」來更新模型參數。

整個過程不需要額外模型、不需要額外推理、不需要額外算力,只是把訓練數據做了一次「按信號強度排序的篩選」。但效果卻非常顯著。

為什麼有效?

SNR-Aware Filtering 的有效性來自一個直觀的數學事實。在 RL 的梯度分解裡:

梯度分解數學公式

當獎勵方差低時,g_signal 會趨近於 0,但 g_reg 完全不會變小,它是輸入無關的「統一收縮力」。於是 g_reg 就成了主導力量,把推理往「輸入無關的模板」方向拉。

SNR-Aware Filtering 的作用,就是把那些 g_signal ≈ 0 的 prompts 全部過濾掉,讓模型只在 g_signal 足夠強的樣本上更新。這會帶來三個直接效果:

  1. 梯度 SNR 被顯著提升
  2. 任務信號被保留下來
  3. 正規噪聲被抑制

最終結果是,模型的推理重新變得「聽輸入的」,互信息 MI 上升,模板化推理被抑制。

這是一種非常「工程友好」的解決方案,不需要改模型、不需要改算法,只需要改變訓練數據的選擇方式。

06 實驗:跨任務、跨算法、跨規模的驗證

RAGEN-2 的實驗部分非常紮實,覆蓋了七大環境、四類 RL 算法、多個模型規模。它不是在小玩具任務上證明方法有效,而是在一整套真實的、多模態、多輪、多決策環境裡驗證推理崩潰的普遍性和 SNR Filtering 的有效性。

不同干預策略下的訓練動態圖

圖 5 | 不同干預策略下的訓練動態。(a)任務成功率,(b)MI 代理(檢索準確性),以及(c)推理熵。如果不進行過濾,MI 會在熵峰值時早期降解,信號模板會崩潰。濾波有效地緩解了檢索準確性的下降,top-p SNR Aware 濾波最好地保留了任務性能和推理多樣性。

七大環境覆蓋多模態、多任務、多決策類型

研究團隊選取的七個環境極具代表性,幾乎涵蓋了當前 Agent 研究的所有關鍵場景:

  • Sokoban:不可逆規劃任務,考驗模型的長期推理能力。
  • FrozenLake:隨機導航任務,考驗模型在不確定環境下的策略穩定性。
  • MetaMathQA:數學推理任務,考驗模型的符號推理能力。
  • Countdown:算式構造任務,考驗模型的組合推理能力。
  • SearchQA:多輪檢索任務,考驗模型的信息整合能力。
  • WebShop:網頁導航任務,考驗模型的工具使用與決策能力。
  • DeepCoder:代碼合成任務,考驗模型的程序推理能力。

這些任務的共同點是都需要模型在多輪互動中保持穩定、輸入依賴的推理結構。RAGEN-2 的實驗顯示,推理崩潰在這些任務中普遍存在,而 SNR Filtering 在這些任務中普遍有效。

關鍵實驗現象

實驗中最重要的三個現象非常值得強調:

  1. 互信息 MI 的下降早於性能下降,是更敏感的診斷指標。
  2. 熵在崩潰過程中保持高位,完全無法反映問題。
  3. SNR Filtering 顯著提升 MI 與任務成功率

這說明 MI Proxy 不只是一個「好看的指標」,而是真正能提前預警推理崩潰的信號。而 SNR Filtering 則是一個真正能阻止崩潰、恢復推理品質的解決方案。

不同 RL 算法的一致性

研究團隊還在 PPO、GRPO、DAPO、Dr.GRPO 四種 RL 算法上驗證了推理崩潰的普遍性。結果非常一致:推理崩潰是算法無關的系統性問題,SNR Filtering 是普適解決方案。

這意味著推理崩潰不是某個算法的 bug,而是多輪 Agent RL 的結構性風險;而 SNR Filtering 則是一個結構性修復。

過濾策略比較圖

圖 6 | 顯示頂部的過濾策略比較 - p 持續超越 Top-k 並且在四個環境中沒有過濾器基線。

07 Agentic RL 的新範式

RAGEN-2 的意義遠不止提出一個新指標或新技巧。它實際上重塑了我們理解 Agent 推理品質的方式,也重塑了我們訓練 Agent 的範式。

RAGEN-2 將推理品質的衡量從「熵」轉向「互信息」;將 RL 訓練穩定性的理解從「獎勵」轉向「SNR」;將推理崩潰從一個模糊現象變成一個可解釋、可診斷、可干預的機制。這為未來的 Agentic RL 提供了一個新的理論框架。

  • MI Proxy 可以直接整合到現有的 RLHF、GRPO、PPO 訓練管線裡。
  • SNR Filtering 是一種輕量級、幾乎零成本的增強方法。
  • 對多模態 Agent、工具使用 Agent、Web Agent 都有價值。

這意味著 RAGEN-2 的方法不是「只能在研究團隊裡跑」,而是可以直接落地到真實系統裡。

Agent 時代的核心問題已不再是「模型能力」,而是「推理穩定性」。RAGEN-2 提供了穩定性評估與訓練的新標準,對 AI Agent 的產品化具有直接影響。

未來的 Agent 系統,不再只是比誰能調用更多工具、執行更多步驟,而是比誰能在多輪推理中保持穩定、可靠、輸入依賴的思考結構。RAGEN-2 給了我們一套方法,讓這種穩定性變得可控。(END)

參考資料:https://arxiv.org/pdf/2604.06268

文章結束圖示

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.