別再迷信結果獎勵了！港中文發現並解決 RL 中的「資訊自鎖」難題！

一句話概括，大模型在複雜的推理任務裡經常越訓越笨，是因為「提問能力」和「消化資訊能力」互相拖累形成了死迴圈。作者揭開了基於結果的強化學習（RL）的底細，證明只要在每一步加上極簡單的正負面評判來強行重分配優勢值，就能輕易打破這個「資訊自鎖」魔咒。（原論文題目見文末，點擊原文連結可直接跳轉至原始出處，Published on arXiv on 12 Mar 2026, by The Chinese University of Hong Kong）

在構建能夠主動搜尋、提問並解決複雜問題的大型語言模型（LLM）智能體時，經常會遇到智能體「變笨」、「擺爛」的情況。這篇論文不僅找出了導致這種現象的罪魁禍首——「資訊自鎖」（Information Self-Locking），還給出了一套非常巧妙且輕量級的解法。

第一階段：識別核心概念

論文的動機分析
現在的大型語言模型（LLM）透過基於結果的強化學習（比如答對給獎勵，答錯扣分）在推理任務上取得了巨大成功。但當任務變成主動推理（Active Reasoning），也就是題目資訊不全，智能體必須透過多輪提問來收集線索才能作答時，傳統的強化學習就失效了。智能體會逐漸停止提出有價值的問題，並且對已經收集到的資訊視而不見。它陷入了一種「低資訊量」的死迴圈，即使增加最終的任務獎勵，也學不會如何更好地提問。

論文主要貢獻點分析

概念解構：將智能體的主動推理拆解為兩種核心能力：動作選擇（AS，決定問什麼）和信念追蹤（BT，如何消化新線索並更新內心猜測）。
理論揭秘：從理論上證明了資訊自鎖的產生機制。糟糕的 BT 會掩蓋優秀 AS 的貢獻（問得再好記不住也沒用），而保守的 AS 又限制了 BT 的提升（不問新問題就沒東西可學）。兩者形成了負向混淆效應。
提出方法（AReW）：提出「方向性評判」（Directional Critiques）方法。不訓練複雜的獎勵模型，僅基於規則給出簡單的正負反饋，直接重分配策略梯度中的優勢值，成功打破自鎖。
顯著結果：在 3 個領域的 7 個數據集上，不僅提升了最終準確率（最高提升 60%），還從根本上恢復了智能體「求知若渴」的互動模式。

理解難點識別
核心挑戰在於理解 AS 和 BT 的相互耦合為什麼會導致強化學習失效，以及 AReW 是如何在不改變最終目標獎勵的前提下，把梯度「掰」回正軌的。這部分涉及強化學習中策略梯度和優勢值（Advantage）的重分配，是最具挑戰性的關鍵節點。

概念依賴關係
主動推理任務 → 拆分為 AS 與 BT → 兩者能力不足導致「資訊自鎖」死迴圈 → 傳統優勢值分配失效 → 引入 AReW 進行優勢值重分配打破死迴圈。切入點需放置於 AS 與 BT 雙向耦合的死迴圈機制上。

第二階段：深入解釋核心概念

設計生活化比喻：菜鳥偵探破案記
警察局招募了一個菜鳥偵探（智能體）來偵破複雜的懸案。

動作選擇（AS）：偵探去審問證人收集線索（比如問：「案發時你在哪？」）。
信念追蹤（BT）：偵探在警局的線索板上梳理邏輯，更新嫌疑人名單。
基於結果的強化學習：局長的考核方式。局長不管過程，只看最終能不能抓到真兇，抓到發獎金，抓不到扣工資。

建立比喻與實際技術的對應關係

資訊自鎖的發生：起初菜鳥偵探偶爾問出了好問題（優秀的 AS），拿到了關鍵線索。但邏輯推理能力太差，沒把線索釘在黑板上（糟糕的 BT）。最後案子沒破，局長沒給獎金。偵探開始擺爛，只問廢話（AS 退化）。反過來，因為不再收集新線索，線索板空空如也，邏輯推理能力（BT）永遠得不到提升。最終變成不提問、不思考的廢柴。
AReW 解法（方向性評判）：警局派了一位老法醫（方向性評判）跟著偵探。老法醫不發獎金（不改變最終獎勵），但會在偵探每次行動後給出即時口頭評價。問了好問題，老法醫誇獎（AS Critique = +1）；線索聯繫正確，老法醫點讚（BT Critique = +1）。偵探得到誇獎後優勢值被放大，明確知道當前步驟是正確的，從而打破死迴圈。

深入技術細節與相互映射
在傳統的 PPO 演算法中，智能體更新策略依賴於最終的獎勵。AReW 方法透過引入一個輔助的邊際目標，在數學上實現了老法醫的即時誇獎。修正後的策略梯度更新公式如下：

符號替換版本：策略參數的更新方向 ∝ 期望值 Σ（彙整一整局的所有步驟（原始優勢值 + λ × 區域性方向性評判得分）× 智能體在這一步做出該選擇的對數機率梯度）

技術映射關係：

（原始優勢值）：局長基於最終案子破沒破，分攤給這一步的功劳。在資訊自鎖時，這個值對好動作來說往往是不公平的（接近於 0 甚至負數）。
（區域性方向性評判得分）：老法醫的口頭評價。如果這一步有效收集了資訊（或更新了信念），就是正數；若是無用廢話，則是負數。
（評判的注入強度）：老法醫說話的分量有多重。

總結
AReW 沒有修改環境給的最終目標獎勵，而是在計算梯度更新時，直接對每一步的優勢值進行了加法修正。當偵探問了好問題，即便最終案子搞砸導致原始優勢值極低，加上區域性評判分數後整體優勢值也被拉高。這促使智能體下一次遇到類似情況時做出相同的好動作。老法醫（方向性評判）的區域性視角，完美彌補了局長（最終獎勵）全域視角的滯後性和掩蓋性。

第三階段：詳細說明流程步驟

步驟一：軌跡收集（Rollout Generation）

輸入：環境給出的初始問題設定（例如一段病人臨床症狀描述，要求診斷疾病）。
處理：LLM 智能體開始與環境進行多輪互動。互動交替進行兩種輪次。行動輪：智能體根據當前內心的猜測，生成一個提問（AS），環境返回確定回答；更新輪：智能體接收回答後，顯式地輸出對各個候选答案的置信度（BT）。
輸出：生成一條完整的互動軌跡數據，包含每一輪的提問、環境回答、更新後的置信度，直到達到最大輪數或做出最終決定。

步驟二：提取方向性評判信號（Critique Assignment）

輸入：步驟一生成的互動軌跡。
處理：不調用昂貴的獎勵模型，使用輕量級硬規則打分。對於 AS 節點，檢查提問是否套出有效新資訊（未重複且獲得有效回答），是則該步得分為正，無效則為負。對於 BT 節點，檢查收到有效資訊後真實正確答案的置信度是否上升，是則該步得分為正，否則為負。隨後分別計算權重，若為正則計算對應正權重（軌跡中所有的數量），為負則計算對應負權重。
輸出：軌跡中每一個時間步對應的區域性評判得分。

步驟三：計算結果獎勵與基礎優勢值（Reward & Base Advantage）

輸入：軌跡數據與最後一步的最終診斷結果。
處理：檢查最終診斷是否與真實答案一致，一致給最終獎勵（如 1），不一致給 0。利用標準的廣義優勢估計演算法（GAE），反向計算出分攤給每一個時間步的基礎優勢值。
輸出：每個時間步的原始優勢值。

步驟四：優勢值重塑（Advantage Reweighting）

輸入：原始優勢值和區域性評判得分。
處理：將兩者直接相加進行修正，計算修正後優勢值。λ 為預設的重分配強度超參數。
輸出：修正後的優勢值序列。

步驟五：策略優化（Policy Optimization）

輸入：軌跡數據、對應的舊策略機率，以及修正後的優勢值。
處理：將上述數據送入標準強化學習演算法（如 PPO、GRPO 或 GSPO）的損失函數計算模組。利用修正後優勢值引導模型增加高優勢值動作的生成機率，並透過裁剪（Clipping）防止更新步幅過大。
輸出：更新後的 LLM 模型參數。至此完成一次完整的訓練疊代。

第四階段：實驗設計與驗證分析

主實驗設計解讀：核心論點的驗證

核心主張：傳統的基於結果的 RL 會陷入資訊自鎖，引入 AReW 可以打破這種自鎖並在多輪推理任務中提升最終表現。
數據集選擇：涵蓋偏好估計、醫療診斷、故障排查 3 個領域的 7 個數據集。合理性：這些任務均存在資訊缺失，必須透過多輪提問，涵蓋離散選擇和連續數值場景，充分證明了方法的通用性。
評價指標：最終結果獎勵、AS 代理指標（獲取新資訊能力）、BT 代理指標（置信度向真值逼近程度）。合理性：加入 AS 和 BT 的區域性監控，直接驗證了論文對「能力解耦」的理論假設。
基線方法：直接推理（如 o4-mini）、PPO、以及大規模組相對策略優化（GRPO）和 GSPO。合理性：涵蓋了當前訓練大模型最前緣且主流的演算法體系。
實驗結論：在 28 個評估設置中，AReW 在 27 個設置下顯著超越傳統基線方法，從定性與定量兩方面支撐了核心主張。

消融實驗分析：內部元件的貢獻

設計思路：驗證僅評價提問的 AS ONLY 版本，以及同時評價提問和內在信念更新的 AS+BT 版本。
實驗結論：AS ONLY 版本的整體表現和內在 BT 能力都有提升，定量證明了「更好的提問能給 BT 提供充足養料」的理論一環。AS+BT 雙管齊下在絕大多數任務上取得了最高收益，證明打破雙向耦合必須同時干預兩個通道，具有不可替代的協同效應。

深度/創新性實驗剖析：洞察方法的內在特性

訓練動態過程可視化：直觀證明了「資訊自鎖」的存在以及傳統 RL 走捷徑的現象。繪製訓練步數與各指標的動態折線圖發現，傳統 PPO 下 Reward 緩慢上升但 AS 和 BT 下降或停滯，模型學會了不依賴互動的「盲猜捷徑」。加入 AReW 後，三條曲線實現同頻上升。
多軌道 RL 降維打擊測試：證明資訊自鎖是所有基於結果 RL 的通病。測試近期火紅的 GRPO 演算法發現，即便 GRPO 透過增大採樣量緩解了方差，依然會陷入自鎖。將 AReW 外掛應用在 GRPO 上依然帶來了顯著提升。
方向性評判噪音壓力測試：驗證評判規則出錯時的魯棒性。在訓練時以一定機率反轉正確的評判信號，噪音率高達 50%。結果顯示，即使在 40% 的高噪音率下，AReW 依然擊敗了原始 PPO 基線。這完美契合了作者推導的數學命題（加權準確率大於 50% 即可收斂），證明方法在工程落地時具備極強的容錯能力。

本文題目：On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

本文原始論文發佈於：https://arxiv.org

別再迷信結果獎勵了！港中文發現並解決 RL 中的「資訊自鎖」難題！

第一階段：識別核心概念

第二階段：深入解釋核心概念

第三階段：詳細說明流程步驟

第四階段：實驗設計與驗證分析

相關文章推薦

分享網址