ICLR 2026 | 大型語言模型的非監督式強化學習能走多遠？清華大學研究團隊提出系統性解答

來源 | 機器之心

強化學習的下一站：從監督式到非監督式

強化學習正在重塑大型語言模型的能力邊界。OpenAI o3、DeepSeek-R1、Gemini 3 等頂尖模型都正運用大規模 RLVR（可驗證獎勵強化學習，Reinforcement Learning with Verifiable Rewards）刷新推理任務的天花板。但所有人都知道，純監督式訓練無法永續。人工標註成本指數級成長，在專業領域取得可靠標註更是困難。當模型能力逼近甚至超越人類專家時，誰來給它評分？

從 TTRL（Test-Time Training with Reinforcement Learning）開始，非監督式 RLVR（Unsupervised RLVR）應運而生，讓模型在沒有人工標註的情況下持續進化。這不只是降低成本、提升效率的需求，更是通往超級智慧的必經之路。就像預訓練（pre-training）用無標註資料訓練出了 GPT，非監督式 RLVR 能否延續這項奇蹟？

論文連結：https://arxiv.org/abs/2603.08660

GitHub：https://github.com/PRIME-RL/TTRL/tree/urlvr-dev

X Thread：https://x.com/HBX_hbx/status/2031406636930338828

清華大學研究團隊的最新研究，為這看似美好的願景畫出了第一道邊界。研究者系統性剖析了非監督式 RLVR 的內在機制，發現所有基於模型自身訊號的內在獎勵方法，無論是多数投票、熵獎勵還是其他變體，都遵循著相似的軌跡：訓練初期效能快速攀升，但到達某個臨界點後，開始不可逆地滑落。這不是某個方法的缺陷，而是機制的宿命：它們本質上都在銳化模型既有的偏好，像個回音室，讓模型不斷重複自己最初相信的東西。如果初始信心恰好正確，效果驚人；如果錯配，崩潰只是時間問題。

但這不意味著內在獎勵沒有價值。在小規模測試時訓練（test-time training）中，它依然能穩定提升效能，即使模型一開始全錯，也能在自我糾正中進化。更重要的是，研究者找到了一個「預言指標」，可以在大規模訓練前預判模型的可訓練性，無需跑完整條曲線。

當內在獎勵受限於模型自身的回音時，外部獎勵方法開始展現不同圖景，比如讓模型利用生成與驗證的不對稱性來錨定獎勵。這類方法正在突破內在獎勵的天花板，讓非監督式強化學習真正走向可擴展。

通往超級智慧的路上，我們需要的不是盲目相信模型可以自我進化，而是知道什麼時候該讓它傾聽自己的回音，什麼時候該把它推向真實世界的驗證。

內在獎勵方法：繁榮表象下的深層問題

過去一年，各種「內在獎勵」方法密集湧現。從多数投票到基於模型自信度／熵的變體，它們利用模型內在訊號來構造代理獎勵（proxy reward），訓練前期效能飆升，甚至一度超過有監督方法。

研究者將這些方法根據獎勵的來源歸納為兩類：一類基於確定性（certainty），直接取模型在推理軌跡上的信心度指標作為獎勵；另一類基於集成（ensemble），用多次 rollout 後的集成結果（如多数投票）來錨定正確。

雖然獎勵的來源是免費的，但是代價卻是昂貴的。在早期訓練效能飆升之後，繼續訓練會觸發典型的獎勵攻擊（reward hacking）：

• 代理獎勵（proxy reward）還在持續上漲，真實效能卻在崩潰

• 模型越來越自信，但答案卻越來越離譜

• 不同內在獎勵方法在不同模型上表現天差地別

更關鍵的是，沒人說得清為什麼有效，又為什麼失敗。

我們做了什麼：拆開黑箱，劃清邊界

我們不想只是「提出新方法衝分數」，我們想回答那個沒人說清的問題：

非監督式 RLVR 的規模化（scaling）上限在哪裡？如果有上限，邊界在哪裡？

為此，我們做了五件事：

• 統一理論框架：把看似五花八門的內在獎勵方法歸到同一個機制下，揭示它們殊途同歸的本質——銳化模型初始分布，並給出理論收斂邊界。

• 大規模實證：11 個模型 × 5 種內在獎勵方法 × 超參數掃描，用數據說話，驗證了「先升後降」不是偶然，而是普遍規律。

• 畫出安全區：不是所有場景都會崩潰。我們發現，在小規模測試時訓練（test-time training）中，內在獎勵可以安全使用，即使初始全錯也能穩定進化。

• 化陷阱為路標：崛起與衰落（rise and fall）不只是風險，它本身就是資訊。我們用它提煉出模型先驗指示器，無需跑完整條 RL 曲線，就能預判一個基礎模型是否適合強化學習。

• 探路替代方案：既然內在獎勵有天花板，我們就看向外部。初步探索基於生成—驗證不對稱性的外部獎勵方法，看它能否真正突破內在獎勵的規模化極限。

四個關鍵發現

🔍 發現一：成敗取決於「信心度—正確性」對齊程度

我們建立了內在獎勵方法的統一理論，揭示所有內在獎勵方法的本質：銳化分布，即放大模型既有偏好，而非創造新知識。這個機制有個特性：

• 如果模型初始傾向正確 → 銳化有效，效能提升

• 如果模型初始傾向錯誤 → 銳化有害，加速崩潰

我們定義模型初始傾向（或者稱為模型先驗）為信心度與正確性對齊程度（confidence-correctness alignment），即當我們僅提升模型的自一致性時，有多大機率能直接做對更多的題目。換句話說，一個先驗比較強的模型，本身已經掌握了解決問題的大部分知識，只是不夠自信以至於說不出正確的答案。

我們測試了 11 個模型、5 種方法、4 個常用的超參數，結論似乎是殘酷的：崩潰不可避免，只是時間問題。即使最穩定的配置也撐不過幾個訓練週期（epoch）。這說明可能不是工程問題，而是數學必然。

左圖：成敗取決於信心度與正確性對齊程度；右圖：單筆資料上信心度與正確性隨訓練的演化

✅ 發現二：小場景裡反而安全

崛起與衰落（Rise and fall）是宿命，但宿命有它的適用範圍。

當訓練資料足夠少，比如測試時訓練（Test-Time Training）這種特定領域場景，內在獎勵方法反而展現出難得的穩定。原因很純粹：只在少量樣本上最佳化自信度，模型跑不了多遠就到頭了。即便它在這些樣本上變得「超級自信」，也難以引發全局的策略偏移，分布外（OOD）任務上的準確率依然穩穩守住。

更有意思的是一個極端實驗：研究者刻意選了 32 條模型全錯的樣本作為訓練集。也就是說，內在獎勵給出的代理獎勵從一開始就是錯的。結果呢？OOD 測試集上的效能依然在穩定提升。

這說明，內在獎勵不是在教模型「什麼是對的」，而是在教它「更相信自己」。即使信錯了，這種自我強化也被牢牢鎖在局部，翻不起大浪。

左圖：小規模測試時訓練穩定提升，不崩潰；右圖：不同訓練集規模下策略的 KL 散度偏移

🎯 發現三：判斷模型適不適合做 RL

Rise and fall 不只是風險，它本身就是資訊。

既然內在獎勵的成敗取決於模型初始的「信心度—正確性」對齊程度，那能不能用這個對齊度，提前判斷一個基礎模型是否適合做 RL？畢竟，跑一次大規模 RL 的成本太高了，而學界一直缺一個輕量級的預判指標。

研究者找到了一把尺子：模型崩潰步數（Model Collapse Step），去測量一個模型在內在獎勵訓練下，能撐多少步才完全崩潰。邏輯很簡單，如果崩潰越晚，說明模型的初始先驗越好，它本身就掌握更多正確知識，只是不夠自信；而這種先驗，恰恰是標準有監督 RL 能夠放大的東西。換句話說，內在獎勵的崩潰點，就是模型「RL 可訓練性」的天然指示器。

結果也印證了這一點。Qwen 這種公認「適合 RL」的模型系列，在內在獎勵下撐得更久。更有意思的是，這個指標無需任何真實標註（ground truth），預測準確率超過傳統的 pass@k。

把失敗變成路標，把昂貴的試錯變成輕量級的預判。

左圖：不同基礎模型在非監督式內在獎勵訓練下的模型崩潰步數；中圖：對應基礎模型有監督 RLVR 的效能提升。非監督式內在獎勵下崩潰越晚，有監督 RLVR 之後效果越好，預測準確率超過傳統的 pass@k。

🚀 發現四：外部獎勵才是可規模化的方向

如果內在獎勵注定有天花板，那路在何方？

問題的根源在於獎勵的來源。內在獎勵方法用模型自己的信心度來訓練模型自己，這就像個封閉回音室，獎勵訊號永遠受限於模型已知的東西。你無法用它教會模型真正不知道的知識。

但非監督式 RLVR 不止於此。我們把外部獎勵方法歸納為兩類：

• 利用無標註資料：從海量語料中挖掘獎勵訊號。資料越多，獎勵訊號越豐富，不會因為模型變強而枯竭。

• 利用生成—驗證不對稱性：讓模型自己生成答案，再用外部工具（編譯器、證明助手、模擬器）驗證並提供環境回饋。這些驗證器不會因為模型變強而失效，它們的判斷永遠客觀。

我們初步測試了自驗證方法，結果展現出一條截然不同的曲線：持續改進，沒有崩潰。原因很純粹，獎勵不來自「模型有多自信」，而來自「答案能否通過客觀驗證」。想出解法可能很難，但檢查對錯往往簡單；這種不對稱性，把模型的進化錨定在真實世界的鐵律上，而不是自己的回音裡。

內在獎勵追問「你相信自己嗎」，外部獎勵追問「這是真的嗎」。通往可規模化（scalable）的非監督式強化學習，答案或許就在後者。

寫在最後：邊界之外

我們花了許多篇幅去描繪非監督式強化學習的邊界。但這張地圖的價值，從來不在於告訴你「此路不通」，而在於回答：在什麼條件下，哪條路通。

一個系統能否透過審視自己而變得更好，取決於它最初的判斷有多準確。內在獎勵方法失敗的原因，恰恰也是它們成功的原因，都是同一個機制：自我強化。區別只在於，被強化的是真理還是偏見。

當我們認清內在獎勵的宿命，才真正看清外部獎勵的廣闊前景。通往可規模化的非監督式強化學習，需要的不是盲目相信模型可以自我進化，而是知道什麼時候該讓它傾聽自己的回音，什麼時候該把它推向真實世界的驗證。

內在與外部不是對立，而是工具箱裡的不同工具。認清邊界，不是為了止步，而是為了在邊界內自由創造，在邊界外尋找新的可能。

ICLR 2026 | 大型語言模型的非監督式強化學習能走多遠？清華大學研究團隊提出系統性解答

相關文章推薦

分享網址