來源 | 機器之心
強化學習的下一站:從監督式到非監督式
強化學習正在重塑大型語言模型的能力邊界。OpenAI o3、DeepSeek-R1、Gemini 3 等頂尖模型都正運用大規模 RLVR(可驗證獎勵強化學習,Reinforcement Learning with Verifiable Rewards)刷新推理任務的天花板。但所有人都知道,純監督式訓練無法永續。人工標註成本指數級成長,在專業領域取得可靠標註更是困難。當模型能力逼近甚至超越人類專家時,誰來給它評分?
從 TTRL(Test-Time Training with Reinforcement Learning)開始,非監督式 RLVR(Unsupervised RLVR)應運而生,讓模型在沒有人工標註的情況下持續進化。這不只是降低成本、提升效率的需求,更是通往超級智慧的必經之路。就像預訓練(pre-training)用無標註資料訓練出了 GPT,非監督式 RLVR 能否延續這項奇蹟?
論文連結:https://arxiv.org/abs/2603.08660
GitHub:https://github.com/PRIME-RL/TTRL/tree/urlvr-dev
X Thread:https://x.com/HBX_hbx/status/2031406636930338828
清華大學研究團隊的最新研究,為這看似美好的願景畫出了第一道邊界。研究者系統性剖析了非監督式 RLVR 的內在機制,發現所有基於模型自身訊號的內在獎勵方法,無論是多数投票、熵獎勵還是其他變體,都遵循著相似的軌跡:訓練初期效能快速攀升,但到達某個臨界點後,開始不可逆地滑落。這不是某個方法的缺陷,而是機制的宿命:它們本質上都在銳化模型既有的偏好,像個回音室,讓模型不斷重複自己最初相信的東西。如果初始信心恰好正確,效果驚人;如果錯配,崩潰只是時間問題。
但這不意味著內在獎勵沒有價值。在小規模測試時訓練(test-time training)中,它依然能穩定提升效能,即使模型一開始全錯,也能在自我糾正中進化。更重要的是,研究者找到了一個「預言指標」,可以在大規模訓練前預判模型的可訓練性,無需跑完整條曲線。
當內在獎勵受限於模型自身的回音時,外部獎勵方法開始展現不同圖景,比如讓模型利用生成與驗證的不對稱性來錨定獎勵。這類方法正在突破內在獎勵的天花板,讓非監督式強化學習真正走向可擴展。
通往超級智慧的路上,我們需要的不是盲目相信模型可以自我進化,而是知道什麼時候該讓它傾聽自己的回音,什麼時候該把它推向真實世界的驗證。
內在獎勵方法:繁榮表象下的深層問題
過去一年,各種「內在獎勵」方法密集湧現。從多数投票到基於模型自信度/熵的變體,它們利用模型內在訊號來構造代理獎勵(proxy reward),訓練前期效能飆升,甚至一度超過有監督方法。
研究者將這些方法根據獎勵的來源歸納為兩類:一類基於確定性(certainty),直接取模型在推理軌跡上的信心度指標作為獎勵;另一類基於集成(ensemble),用多次 rollout 後的集成結果(如多数投票)來錨定正確。
雖然獎勵的來源是免費的,但是代價卻是昂貴的。在早期訓練效能飆升之後,繼續訓練會觸發典型的獎勵攻擊(reward hacking):
• 代理獎勵(proxy reward)還在持續上漲,真實效能卻在崩潰
• 模型越來越自信,但答案卻越來越離譜
• 不同內在獎勵方法在不同模型上表現天差地別
更關鍵的是,沒人說得清為什麼有效,又為什麼失敗。
我們做了什麼:拆開黑箱,劃清邊界
我們不想只是「提出新方法衝分數」,我們想回答那個沒人說清的問題:
非監督式 RLVR 的規模化(scaling)上限在哪裡?如果有上限,邊界在哪裡?
為此,我們做了五件事:
• 統一理論框架:把看似五花八門的內在獎勵方法歸到同一個機制下,揭示它們殊途同歸的本質——銳化模型初始分布,並給出理論收斂邊界。
• 大規模實證:11 個模型 × 5 種內在獎勵方法 × 超參數掃描,用數據說話,驗證了「先升後降」不是偶然,而是普遍規律。
• 畫出安全區:不是所有場景都會崩潰。我們發現,在小規模測試時訓練(test-time training)中,內在獎勵可以安全使用,即使初始全錯也能穩定進化。
• 化陷阱為路標:崛起與衰落(rise and fall)不只是風險,它本身就是資訊。我們用它提煉出模型先驗指示器,無需跑完整條 RL 曲線,就能預判一個基礎模型是否適合強化學習。
• 探路替代方案:既然內在獎勵有天花板,我們就看向外部。初步探索基於生成—驗證不對稱性的外部獎勵方法,看它能否真正突破內在獎勵的規模化極限。
四個關鍵發現
🔍 發現一:成敗取決於「信心度—正確性」對齊程度
我們建立了內在獎勵方法的統一理論,揭示所有內在獎勵方法的本質:銳化分布,即放大模型既有偏好,而非創造新知識。這個機制有個特性:
• 如果模型初始傾向正確 → 銳化有效,效能提升
• 如果模型初始傾向錯誤 → 銳化有害,加速崩潰
我們定義模型初始傾向(或者稱為模型先驗)為信心度與正確性對齊程度(confidence-correctness alignment),即當我們僅提升模型的自一致性時,有多大機率能直接做對更多的題目。換句話說,一個先驗比較強的模型,本身已經掌握了解決問題的大部分知識,只是不夠自信以至於說不出正確的答案。
我們測試了 11 個模型、5 種方法、4 個常用的超參數,結論似乎是殘酷的:崩潰不可避免,只是時間問題。即使最穩定的配置也撐不過幾個訓練週期(epoch)。這說明可能不是工程問題,而是數學必然。
左圖:成敗取決於信心度與正確性對齊程度;右圖:單筆資料上信心度與正確性隨訓練的演化
✅ 發現二:小場景裡反而安全
崛起與衰落(Rise and fall)是宿命,但宿命有它的適用範圍。
當訓練資料足夠少,比如測試時訓練(Test-Time Training)這種特定領域場景,內在獎勵方法反而展現出難得的穩定。原因很純粹:只在少量樣本上最佳化自信度,模型跑不了多遠就到頭了。即便它在這些樣本上變得「超級自信」,也難以引發全局的策略偏移,分布外(OOD)任務上的準確率依然穩穩守住。
更有意思的是一個極端實驗:研究者刻意選了 32 條模型全錯的樣本作為訓練集。也就是說,內在獎勵給出的代理獎勵從一開始就是錯的。結果呢?OOD 測試集上的效能依然在穩定提升。
這說明,內在獎勵不是在教模型「什麼是對的」,而是在教它「更相信自己」。即使信錯了,這種自我強化也被牢牢鎖在局部,翻不起大浪。
左圖:小規模測試時訓練穩定提升,不崩潰;右圖:不同訓練集規模下策略的 KL 散度偏移
🎯 發現三:判斷模型適不適合做 RL
Rise and fall 不只是風險,它本身就是資訊。
既然內在獎勵的成敗取決於模型初始的「信心度—正確性」對齊程度,那能不能用這個對齊度,提前判斷一個基礎模型是否適合做 RL?畢竟,跑一次大規模 RL 的成本太高了,而學界一直缺一個輕量級的預判指標。
研究者找到了一把尺子:模型崩潰步數(Model Collapse Step),去測量一個模型在內在獎勵訓練下,能撐多少步才完全崩潰。邏輯很簡單,如果崩潰越晚,說明模型的初始先驗越好,它本身就掌握更多正確知識,只是不夠自信;而這種先驗,恰恰是標準有監督 RL 能夠放大的東西。換句話說,內在獎勵的崩潰點,就是模型「RL 可訓練性」的天然指示器。
結果也印證了這一點。Qwen 這種公認「適合 RL」的模型系列,在內在獎勵下撐得更久。更有意思的是,這個指標無需任何真實標註(ground truth),預測準確率超過傳統的 pass@k。
把失敗變成路標,把昂貴的試錯變成輕量級的預判。
左圖:不同基礎模型在非監督式內在獎勵訓練下的模型崩潰步數;中圖:對應基礎模型有監督 RLVR 的效能提升。非監督式內在獎勵下崩潰越晚,有監督 RLVR 之後效果越好,預測準確率超過傳統的 pass@k。
🚀 發現四:外部獎勵才是可規模化的方向
如果內在獎勵注定有天花板,那路在何方?
問題的根源在於獎勵的來源。內在獎勵方法用模型自己的信心度來訓練模型自己,這就像個封閉回音室,獎勵訊號永遠受限於模型已知的東西。你無法用它教會模型真正不知道的知識。
但非監督式 RLVR 不止於此。我們把外部獎勵方法歸納為兩類:
• 利用無標註資料:從海量語料中挖掘獎勵訊號。資料越多,獎勵訊號越豐富,不會因為模型變強而枯竭。
• 利用生成—驗證不對稱性:讓模型自己生成答案,再用外部工具(編譯器、證明助手、模擬器)驗證並提供環境回饋。這些驗證器不會因為模型變強而失效,它們的判斷永遠客觀。
我們初步測試了自驗證方法,結果展現出一條截然不同的曲線:持續改進,沒有崩潰。原因很純粹,獎勵不來自「模型有多自信」,而來自「答案能否通過客觀驗證」。想出解法可能很難,但檢查對錯往往簡單;這種不對稱性,把模型的進化錨定在真實世界的鐵律上,而不是自己的回音裡。
內在獎勵追問「你相信自己嗎」,外部獎勵追問「這是真的嗎」。通往可規模化(scalable)的非監督式強化學習,答案或許就在後者。
寫在最後:邊界之外
我們花了許多篇幅去描繪非監督式強化學習的邊界。但這張地圖的價值,從來不在於告訴你「此路不通」,而在於回答:在什麼條件下,哪條路通。
一個系統能否透過審視自己而變得更好,取決於它最初的判斷有多準確。內在獎勵方法失敗的原因,恰恰也是它們成功的原因,都是同一個機制:自我強化。區別只在於,被強化的是真理還是偏見。
當我們認清內在獎勵的宿命,才真正看清外部獎勵的廣闊前景。通往可規模化的非監督式強化學習,需要的不是盲目相信模型可以自我進化,而是知道什麼時候該讓它傾聽自己的回音,什麼時候該把它推向真實世界的驗證。
內在與外部不是對立,而是工具箱裡的不同工具。認清邊界,不是為了止步,而是為了在邊界內自由創造,在邊界外尋找新的可能。