4B 模型幻覺抑制能力超越 GPT-5，CMU 等提出行為校準強化學習新方法

作者吳嘉贇，卡內基美隆大學（CMU）機器學習系博士生，研究大型語言模型的評測與後訓練，包括模型推理、模型幻覺、主動評測等。

大型語言模型（LLM）的幻覺問題一直是阻礙其在關鍵領域部署的核心難題。近日，研究人員提出了一種名為「行為校準強化學習」（Behaviorally Calibrated Reinforcement Learning）的新方法，透過重新設計獎勵函數，讓模型學會「知之為知之，不知為不知」。

論文連結：https://arxiv.org/abs/2512.19920

一個僅 40 億參數的模型在接受該方法訓練後，其幻覺抑制能力竟然超越了 GPT-5 等前沿大模型。

圖 1：模型在回答數學問題時輸出的置信度標註範例。每個聲明都附帶置信度分數和理由說明。

核心問題：為什麼 LLM 會產生幻覺？

研究團隊指出，當前主流的大模型後訓練範式 —— 基於可驗證獎勵的強化學習（RLVR）—— 存在一個根本性的獎勵錯位問題。在標準 RLVR 中，獎勵函數通常是二元的：回答正確得 +1 分，回答錯誤得 -1 分。在這種機制下，只要正確機率大於零，一個追求效用最大化的智能體會被激勵生成可能錯誤的答案。這就造成了對「拒絕回答」行為的懲罰，迫使模型抑制不確定性的表達，將猜測偽裝成事實。模型被訓練成了「優秀的應試者」—— 為了最大化預期分數而猜測，而不是成為「誠實的溝通者」—— 在置信不足時選擇放棄。

解決方案：行為校準強化學習

針對上述問題，研究團隊提出了行為校準的解決方案。其核心思想是：一個值得信賴的模型應該根據用戶指定的風險閾值動態調整其拒絕行為：

當時，模型處於「應試者模式」，盡可能回答問題；
當時，模型處於「完全誠實模式」，只在絕對確定時才回答；
一般情況下，0 當且僅當模型的置信度時才輸出實質性答案，否則輸出

為了實現這一目標，研究團隊設計了兩種策略：

策略一：言語化置信度（Verbalized Confidence）

該策略訓練模型在輸出答案的同時，顯式輸出一個標量置信度分數，當模型置信低於用戶風險閾值時拒絕回答，並分配獎勵：

回答正確得 1 分；
回答錯誤得 -1 分；
拒絕回答得分。

研究團隊將不同用戶風險偏好下的獎勵函數進行積分，將訓練目標從帶有顯式風險閾值的條件優化，轉化為對 Verbalized Confidence 的嚴格適當評分規則（proper scoring rule) 進行優化。

對於均勻分布的風險偏好，推導出的獎勵函數類似於 Brier 分數：

這個獎勵可以分解為正確性獎勵和置信度校準的 Brier 分數之差，激勵模型在最大化預測準確率的同時，校準其聲明的置信度。

對於一般的風險偏好累計分布函數，獎勵函數的通式為：

策略二：Critic 價值函數（Critic Value）

作為顯示生成置信度的替代方案，該策略使用 PPO 演算法中 Critic 網路的價值函數作為隱式置信度估計器。理論上，Critic 網路透過最小化預測值與策略回報之間的 Brier 分數進行訓練，其價值函數會收斂到成功機率。

聲明級行為校準：細粒度的「不確定」標註

研究團隊進一步將行為校準從響應級別擴展到聲明級別，使模型能夠精確標註答案中單個不確定的推理步驟，而非簡單地拒絕整個回答。這一擴展面臨三大挑戰：

挑戰一：連貫性問題。直接將不確定的聲明替換為 < IDK > 可能破壞推理的連貫性 —— 例如在數學問題中，後續步驟往往依賴於前面的結論。研究團隊選擇讓模型輸出完整響應，同時用 HTML 標籤可視化高亮不確定的聲明。

挑戰二：中間步驟的歧義性。在思維鏈（CoT）推理中，中間步驟的正確性和置信度存在天然歧義：一個步驟可能正確識別了前面聲明中的錯誤。為此，研究團隊忽略中間推理過程，僅在最終的結構化步驟上進行校準。

挑戰三：缺乏細粒度標籤。聲明級的正確性標註難以獲取。研究團隊設計了基於弱監督的學習目標：將聲明級置信度聚合成響應級置信度，再使用 Brier 分數獎勵進行訓練。

具體而言，對於包含個聲明的響應，研究團隊探索了兩種聚合方式：

乘積聚合（Product Aggregation）：，假設各聲明的獨立性，最終正確當且僅當所有聲明都正確
最小值聚合（Minimum Aggregation）：，由最不確信的步驟決定整體置信度，強制模型為最易出錯的步驟分配低置信度

實驗發現，最小值聚合在聲明級評估中表現更優，因為它能更有效地激勵模型識別推理鏈中的薄弱環節。而乘積聚合雖然更適合響應級校準，但可能導致單個聲明的置信度過於樂觀。

實驗結果

研究團隊在多個基準測試上評估了該方法，包括位元組跳動 Seed 團隊發布的極具挑戰性的數學推理基準 BeyondAIME，以及 AIME-2024/2025 和 SimpleQA（跨領域事實問答基準）。

核心評估指標

信噪比增益 (SNR Gain)：給定風險閾值，信噪比定義為模型回答中正確響應數量與幻覺響應數量的比值，即。SNR 越高，說明模型在回答問題時的正確回答遠多於錯誤回答。SNR 增益則是風險閾值在的整個區間內的平均信噪比相對總是回答時的信噪比增益。

Confidence AUC：使用模型的置信度分數對正確和錯誤回答進行排序，計算 ROC 曲線下面積。AUC 越接近 1，說明模型越能準確地將高置信度分配給正確回答，將低置信度分配給錯誤回答。這是一個純衡量模型「自知之明」的指標，不受模型本身能力強弱的影響。

響應級評估：超越 GPT-5

在 BeyondAIME 上的響應級評估結果顯示（表 1），研究提出的方法顯著優於 Qwen3-max，Kimi-K2，Gemini-2.5-Pro 和 GPT-5 等模型。其中，採用言語化置信度（Verbalized Confidence）、置信度乘積聚合（Qwen3-4B-Instruct-confidence-prod）的 40 億參數模型取得了 0.806 的 SNR 增益，大幅超越 GPT-5 的 0.207。採用 Critic 價值函數（Qwen3-4B-Instruct-ppo-value）也取得了相當好的效果。

表 1：BeyondAIME 響應級評估結果。SNR Gain 和 Conf AUC 是衡量幻覺抑制效果的關鍵指標，數值越高表示模型越能有效抑制幻覺。

聲明級評估：超越 Gemini-2.5-Pro

研究團隊還將行為校準從響應級別擴展到聲明級別，讓模型能夠精確標註單個不確定的推理步驟。在 BeyondAIME 的聲明級評估中（表 2），置信度最小聚合方法取得了 0.301 的 SNR 增益，顯著優於 Gemini-2.5-Pro 的 0.019。

表 2：BeyondAIME 聲明級評估結果。最小值聚合方法在 SNR Gain 和 Conf AUC 兩個核心指標上均大幅領先前沿模型。

置信度校準圖：多數前沿模型缺少「自知之明」

置信度校準圖（Reliability Diagram）是評估模型「自知之明」的重要可視化工具。圖中的虛線代表完美校準 —— 模型聲明的置信度等於其實際準確率。從圖 2 可以清晰地看到，前沿模型（包括 Gemini-2.5-Pro、Qwen3-Max 等）的校準曲線幾乎是水平線，這意味著無論模型聲稱自己有多「自信」，其實際準確率都維持在相近水平。這說明這些模型缺乏區分正確與錯誤回答的能力。只有 GPT-5 和 o4-mini 輸出的置信具有實際意義。相比之下，經過行為校準訓練的模型（圖 3）展現出理想的校準特性。單調遞增的校準曲線證明模型學會了誠實地表達自己的不確定性。

圖 2：前沿模型在 BeyondAIME 上的響應級置信度校準圖。可以觀察到，很多模型的準確率是一條水平線，與其聲明的置信度幾乎沒有相關性。

圖 3：本研究模型在 BeyondAIME 上的置信度校準圖。經過行為校準訓練後，模型的準確率與其聲明的置信度呈現強烈的正相關關係。其中 Base 和 Base-ppo 是基準。

行為校準的四個目標

圖 4：在不同風險閾值下的準確率、拒絕率和幻覺率變化曲線。綠色區域代表準確率，黃色區域代表拒絕率，紅色區域代表幻覺率。隨著風險閾值 t 的增加，模型逐漸從「應試者模式」過渡到「完全誠實模式」。

研究團隊設計的系統滿足行為校準的四個目標：

目標 1：自適應風險。模型能根據用戶指定的風險閾值自動調整拒絕策略。從圖 4 可以觀察到，隨著風險閾值的增加，幻覺率（紅色區域）迅速下降。與前沿模型和基礎 PPO 模型的「凸形」拒絕曲線不同，本研究模型的「凹形」拒絕曲線表明模型能更快地適應風險變化，在較低的風險閾值下就能有效降低幻覺。

目標 2：準確率保持。在（不拒絕）模式下，校準模型的準確率與標準 RL 微調基線相當甚至更好。

目標 3：幻覺減少。隨著風險閾值增加，幻覺率單調遞減。當時（完全誠實模式），幻覺率幾乎降至零。同時信噪比 SNR（綠色區域與紅色區域的比值）大幅提升。

目標 4：定量校準。模型滿足兩個定量約束：

真陽性率（TP）：在模型選擇回答的問題中，正確回答的比例不低於風險閾值
假陰性率（FN）：在模型選擇拒絕的問題中，原本能正確回答的比例應不高於

圖 5 展示了各模型的 TP 和 FN 曲線。TP 曲線大部分位於對角線上方，FN 曲線大部分位於對角線下方，滿足行為校準的定量約束。

圖 5：行為校準的 True Positive（實線）和 False Negative（虛線)。TP 曲線應位於對角線上方，FN 曲線應位於對角線下方。Base 和 Base-ppo 是基線

跨領域泛化：元技能的可遷移性

為了驗證該方法訓練出的元認知能力是否具有可遷移性，研究團隊將在數學數據上訓練的模型直接在 SimpleQA（具有挑戰性的長尾事實知識基準）上進行零樣本評估。

結果顯示，方法的 SNR 顯著優於基礎指令模型，超越了大多數評估的前沿模型，與包括 Claude-Sonnet-4.5 和 GPT-5 在內的最強前沿模型相當。由於零樣本評估的設定，在模型缺乏基礎知識的全新領域上，行為校準被有效遷移，這說明行為校準是一種與預測準確率解耦的技能。

研究啟示：

幻覺緩解與準確率是兩個獨立的能力

該研究還帶來了一些理論洞察：

1. 幻覺緩解與事實準確率是兩種不同的能力。研究團隊觀察到，對於某些前沿模型而言，準確率與幻覺率或置信度校準之間並沒有正相關關係。GPT 系列模型的優勢更多體現在控制幻覺的能力上，而不僅是準確率的優勢。

2. 小模型也能實現與大模型相當的置信度校準。實現有效「校準」所需的計算資源遠低於追求絕對準確率所需的資源。反過來說，某些大模型的言語化置信度並不能準確反映其實際表現。

3. 行為校準是一種可學習的屬性，可以透過訓練得到改善。這與此前認為幻覺是 LLM 不可避免的內建特性的觀點形成了對比。

轉載請聯繫本公眾號獲得授權

投稿或尋求報導：liyazhou@jiqizhixin.com

4B 模型幻覺抑制能力超越 GPT-5，CMU 等提出行為校準強化學習新方法

相關文章推薦

分享網址