隨著 OpenAI o1 等模型展現出卓越的複雜推理能力,基於可驗證獎勵的強化學習(RLVR)逐漸成為提升大型模型表現的關鍵技術路徑。然而,強化學習在「黑盒子」內部究竟是如何改變模型的?現有的演算法又面臨哪些瓶頸?
近日,阿里巴巴通義實驗室 Qwen Pilot 團隊連續發布四篇系列技術部落格,深入剖析了大型模型強化學習的底層機制與潛在局限。
基於這些洞察,團隊正式推出了全新演算法 FIPO(Future-KL Influenced Policy Optimization)。該方案巧妙引入 Future-KL 機制,有效解決了純強化學習訓練中頑固的「推理長度停滯」難題。在 32B 純淨底座的同台較勁中,FIPO 無需任何監督式微調(SFT)數據預熱與價值模型輔助,便展現出領先的收斂極限,並率先在權威數學評測中實現了對 o1-mini 以及同規模 deepseek-zero-MATH 的性能超車,為開源社群樹立了中等規模參數純強化學習訓練的全新標竿。
忒修斯之船(Theseus):
98%的輸出保持不變,
強化學習的本質是「稀疏而關鍵」的路徑引導
大型模型在經過強化學習(RL)微調後,其內部的推理機制是否被徹底「重寫」了?為了回答這個宛如「忒修斯之船」的難題,團隊從 Token 層級對模型行為進行了深度剖析。
研究結果打破了業界的慣性認知:在絕大多數生成步驟中,強化學習模型與基礎模型的表現高度一致,超過 98% 的 Token 分佈幾乎沒有發生變化。
正如上圖及所示,模型輸出分佈的散度在序列的絕大部分位置都趨近於零,僅在極少數位置出現脈衝式的突增。
這意味著,RLVR(基於可驗證獎勵的強化學習)並沒有為模型憑空創造出全新的全局能力,其優化機制呈現出「極度稀疏但至關重要」的特徵。如圖的軌跡視覺化所示,強化學習的作用更像是一個精準的「變換車道開關」:它僅僅在少數幾個關鍵的邏輯決策點上實施微調干預,就能將模型引導至一條基礎模型原本就具備、但難以全程維持的正確推理軌跡上。
定位關鍵點:
突破幅度盲區,
用「方向性」精準鎖定推理核心
既然引發「蝴蝶效應」的關鍵 Token 如此稀疏,研究人員該如何在數以萬計的輸出中精準定位它們?
在進一步的探索中,團隊發現,業界常用的傳統評估指標(如熵 Entropy、KL 散度)存在天然的觀測盲區:它們只能衡量模型「發生了多大改變」(幅度),卻無法揭示改變的具體形態。
正如上圖與直方圖所示,在傳統指標的觀測下,基礎模型與強化學習模型的輸出分佈高度重疊,依然宛如「大海撈針」。然而,當團隊摒棄純幅度指標,引入符號對數概率差(𝚫 ㏒ 𝒫)這一全新維度時,強化學習的內在邏輯瞬間清晰。
𝚫 ㏒ 𝒫 能夠精準捕捉優化的方向性——它能清晰地量化出強化學習演算法究竟是在「鼓勵」(正向)還是「打壓」(負向)某個特定 token 的生成。上圖的 Token 替換實驗給出了最具說服力的證明:通過 𝚫 ㏒ 𝒫 篩選出的關鍵決策點,能夠以極低的替換比例最高效地恢復完整的強化學習推理性能,精準度遠超 KL 散度與熵。
把握了這一方向性規律,團隊不僅能最快地鎖定影響推理軌跡的核心樞紐,更在工程上開闢了新路徑:在測試階段,通過直接沿 𝚫 ㏒ 𝒫 方向放大這些關鍵決策,模型甚至無需進行任何額外的訓練,即可顯著提升其數學解題的準確率。
揭示長推理隱患:
高頻的「Oops Moment」與全局獎勵機制的局限
掌握了如何定位關鍵的優化方向後,團隊將目光投向了模型漫長推理過程中的具體行為,並有了一個令人警醒的發現。業界普遍期待大型模型能通過自我反思來糾正前序錯誤(即所謂的「頓悟」 Aha Moment)。然而,在對海量長思維鏈進行深度剖析時,團隊觀察到一種截然相反且極具破壞性的現象——「自我誤導」。其典型表現為:模型明明已經成功推導出了正確的中間步驟或最終答案,卻意外觸發了額外的「自我反思」序列,從而強行推翻了正確的結論,導致最終輸出錯誤。
這一現象在複雜的數學推理中屢見不鮮。如下方的典型案例所示:模型在第 108 步時,已經準確無誤地計算出了目標結果(3507)。但緊接著,它生成了一句冗餘的自我懷疑,隨後被自己新建構的錯誤邏輯徹底帶偏,最終得出了荒謬的錯誤答案(15)。
這種情況究竟是偶然的個案,還是普遍存在的系統性缺陷?通過對龐大的零基礎強化學習驗證數據進行嚴格統計,團隊揭示了一個嚴峻的現實:
在整個訓練週期內,正向的「頓悟」極其罕見,佔比僅約 1%。與之形成鮮明對比的是,破壞性的「Oops Moment」發生率持續穩定在近 3% 的高位,其發生頻率幾乎是「頓悟」的三倍。
為什麼模型會頻繁發生這種「反向優化」?
團隊指出,其根本原因在於當前主流強化學習演算法(如標準 GRPO)中存在的粗粒度信用分配缺陷。傳統的全局獎勵機制採用的是統一分配,只要最終結果正確,系統會將相同的獎勵平均分發給整條思維鏈上的所有 Token。
這種機制無法區分哪些是真正的關鍵邏輯推進,哪些是毫無意義的冗餘反思,導致模型缺乏清晰的局部對錯感知。長此以往,模型在長序列推理中極易迷失方向,最終陷入「推理長度停滯」的性能瓶頸。
重塑信用分配:
FIPO 引入「未來影響力」,
解鎖深度推理潛力
綜合上述三大洞察,一個打破當前推理瓶頸的技術路徑已然清晰:既然大型模型推理能力的躍升依賴於極少數關鍵決策點的精準「變換車道」(如洞察一、二所示),而傳統的全局獎勵機制卻因其粗粒度的分配方式無法識別這些關鍵點,甚至在長序列中不可避免地助長了高頻的「Oops」災難(如洞察三所示);那麼,新一代的強化學習演算法必須實現從「全局統一獎勵」向「Token 級精確信用分配」的跨越。
為徹底攻克這一信用分配難題,團隊正式提出了全新的 FIPO(Future-KL Influenced Policy Optimization)演算法。
相較於傳統 GRPO 演算法高度依賴軌跡末端的二元結果反饋(ORM)並平均分攤獎勵,FIPO 從底層邏輯上重構了優化的範式。它創新性地引入了「未來影響力」這一核心指標,旨在即時追蹤並量化每一個生成 token 對後續整條推理軌跡走向的因果作用。
核心機制:
引入「未來影響力」,
實現 Token 級精確評估
FIPO 演算法不再高度依賴只能在軌跡終點結算的二元結果反饋(ORM),而是創新性地引入了旨在捕捉因果影響力的 Future-KL 估算機制。在模型生成思維鏈的過程中,FIPO 會敏銳地追蹤每一個 Token 引發的概率偏移。
基於此,當前 token 對未來的整體因果影響力可被定義為後續軌跡概率偏移的累加:
根據該指標的反饋,演算法實現了對局部推理軌跡的精準引導:
正向強化: 當 FutureKLt > 0 時,表明更新後的策略對整個後續軌跡起到了強化作用。當前生成的 token 被視為推理鏈條中的「穩定錨點」,演算法會增加其權重,促使模型在未來沿用該有效路徑。
反向抑制: 反之,當 FutureKLt < 0 時,表明策略正在對未來的 token 生成進行集體抑制。這意味從該點衍生的推理軌跡正變得不再受模型青睞,演算法將降低該分支的權重,從而有效阻止低效或錯誤思路的延續。
工程穩健性保障:
三大機制抑制訓練不穩定性
在實際訓練中,未經約束的 Future-KL 會放大分佈偏移帶來的變異數,容易導致梯度爆炸及災難性的訓練崩潰。FIPO 的工程優勢在於,Qwen Pilot 團隊為其設計了三大穩健性機制,確保了優化的平滑推進:
極端值過濾: 演算法會顯式地屏蔽掉具有極端更新波動優勢的 token,從而在不改變有效推理訊號的前提下,消除訓練中最主要的不穩定性來源。
軟衰減視窗: 創新性地引入了折扣因子(γ)來模擬因果影響力的遞減效應。該機制促使模型優先關注局部的邏輯連貫性,同時平滑地過濾掉來自遙遠未來的累積雜訊。
影響力權重裁剪: 將作為優勢乘法係數的影響力權重(⨍t)嚴格限制在預設的安全區間內,徹底防止由於極端概率偏移引起的數值崩潰。
突破長度瓶頸:
萬字深度推理與準確率的實質躍升
為驗證該方案的有效性,研究團隊在完全未接觸過長邏輯鏈數據的零基礎模型 Qwen2.5-32B-Base 上進行了評估。實驗數據展現了 FIPO 在解決複雜數學推理上的突破性進展:
突破長度停滯: 傳統的基線演算法往往在生成約 4,000 個 Token 後陷入長度停滯。而在 FIPO 的正向激勵下,模型的平均推理長度被成功推升至 10,000 Token 以上。
實現準確率縮放: 實驗清晰地驗證了「長度增加並非冗餘生成」——在 FIPO 的引導下,響應長度的增加與模型實際解題準確率呈現出強正相關性,真正實現了有意義的深度思考。
在最具挑戰性的 AIME 2024 數學基準測試中,FIPO 成功擊穿了基線 DAPO 演算法 50.0% 的性能瓶頸,將準確率強勢推升至 58.0% 的全新高點。這標誌著 FIPO 成為首個在 32B 同等參數規模且零外部長思維鏈先驗的「純強化學習設定下」,成功跨越 o1-mini 性能鴻溝的開源方案。
此外,監控指標也印證了 FIPO 訓練過程的健康度:平滑上升的策略散度、持續處於低位的梯度範數以及保持探索的熵,共同表明模型在穩定地拓展其推理空間,而非陷入機械的局部擬合。
歡迎查看
論文:
https://arxiv.org/pdf/2603.19835
GitHub:
https://github.com/qwenpilot/FIPO
模型:
https://huggingface.co/QwenPilot/FIPO_32B
https://modelscope.cn/models/chiyum609/FIPO_32B
訓練曲線: