強化學習(RL)已成為提升大語言模型(LLM)推理能力的核心後訓練工具。在 RL 後訓練系統中,rollout——即從提示(prompt)到終止的取樣軌跡,包含中間推理步驟以及可選的工具或環境互動——決定了優化器學習所用的資料。然而,rollout 設計常被低估,僅被視為實作細節。本綜述為基於 RL 的推理 LLM 後訓練提供了優化器無關的 rollout 策略視角。我們形式化統一符號的 rollout 管線,並引入GFCR(生成-過濾-控制-重播)生命週期分類法,將 rollout 管線分解為四個模組化階段:Generate(生成)提出候選軌跡;Filter(過濾)透過驗證器、評委或評論家建構中間訊號;Control(控制)在預算下分配運算資源並做出繼續/分支/停止決策;Replay(重播)在不更新權重的情況下,跨 rollout 保留和復用工件。我們還補充了可靠性、覆蓋率與資訊性、成本敏感性三條準則,用於闡述 rollout 設計必須權衡的要素。透過數學、程式碼/SQL、多模態推理、工具使用代理和代理技能基準等案例研究,我們驗證了該框架的有效性。
1 引言
隨著強化學習在 LLM 後訓練中地位的提升,rollout 策略的重要性日益凸顯。一個 rollout 是從提示到終止的取樣軌跡,在純文字設定中表現為包含中間推理和最終答案的完整輸出;在工具或環境互動設定中,則包含動作-觀察迴圈和外部回饋。rollout 設計常常主導訓練成本和學習訊號品質,但現有文獻多集中於優化演算法和獎勵建模,rollout 策略的細節往往被低估或隱藏。
論文中的四幅配圖如下:
- 圖 1
提供了 rollout 生命週期和 GFCR 分解的整體概覽。它展示了 rollout 管線可被理解為關於軌跡如何提出、中間訊號如何建構、運算如何分配以及跨 rollout 哪些工件被保留和復用的模組化選擇。 - 圖 2
展示了 GFCR 作為端到端 rollout 系統的完整流程。給定提示和運算預算,Generate 取樣一個 rollout 組;Filter 為每個 rollout 建構中間訊號和訓練監督;Control 根據成本和訊號決策繼續/剪枝/重取樣並決定儲存什麼;Replay 檢索/儲存工件以調節未來生成。目標是在運算約束下最大化期望效用。 - 圖 3
展示了 rollout 準則分類法,分為三個交叉維度:可靠性(透過驗證器或穩健評委實現可信訊號)、覆蓋率與資訊性(多樣候選和不一致性/不確定性)、成本敏感性(透過價值-成本比和提前停止實現預算下的價值)。 - 圖 4
展示了 Generate 模組的設計空間。rollout 提議機制可沿三個軸組織:拓撲與互動(單線、組、樹/圖、多輪/工具 rollout)、指導與鷹架(示例/規則、計劃、反思、自適應指導、工具增強)、取樣與探索配置(解碼參數、不確定性感知分配、部分 rollout 與恢復、僅取樣推理增強)。
本綜述的貢獻包括:首次系統組織 rollout 策略;提出 GFCR 和準則分類法;綜合各類 rollout 方法;透過多領域案例進行驗證;提供診斷索引和開放挑戰。
2 相關工作
我們將本綜述與現有調查進行對比。現有調查主要圍繞回饋建模、獎勵學習和優化目標組織,隱含地處理 rollout 策略。例如,RLHF 和偏好學習調查強調回饋收集與建模;RL 增強 LLM 調查總結 RLHF、RLAIF 和直接偏好系列;技術調查聚焦 RL 演算法和訓練機制;管線級調查分類 RL 出現在資料生成、預訓練、後訓練和測試時推理的哪些位置;推理和代理中心綜述則聚焦多步推理、搜尋和環境互動。相比之下,本綜述將 rollout 策略作為分析單位,提供模組化詞彙表比較不同系統如何組合拓撲、取樣、評分粒度、預算分配和經驗復用。
3 基礎:Rollout、準則與 GFCR 框架
本節建立基礎。首先介紹 GFCR 的功能分解:Generate、Filter、Control、Replay 四個模組。然後定義全局符號:rollout τ = (x, u_1:T, o_1:T),其中 x 是提示,u_t 是模型動作,o_t 是環境觀察。訓練系統通常取樣單個 rollout 或一組 K 個 rollout。Filter 訊號記為 ϕ,訓練訊號 S 由 Score(ϕ) 得到。運算成本 c(τ) 和預算 B 約束整體優化。
GFCR 模組常交錯:Filter 訊號觸發 Control 決策(如剪枝、提前停止),Replay 工件種子化未來的 Generate,Control 策略決定哪些工件進入 Replay。
準則分類法描述三個訴求:可靠性(可驗證結果、穩健評委評分)、覆蓋率與資訊性(多樣候選、分歧訊號)、成本敏感性(價值歸一化、提前停止)。GFCR 是功能分解,準則是對選擇理由和評價方式的描述。
4 生成:如何提出軌跡
Generate 模組規定候選 rollout 的提議方式。輸出是候選集 T(x) = {τ^(i)},受拓撲 Topo、指導 z 和取樣配置 κ_G 影響。拓撲分為線性、組、樹/圖和互動式四類。線性 rollout 取樣單軌跡;組 rollout 取樣 K 個平行候選,支援組內比較和變異數縮減(如 GRPO);樹/圖 rollout 在中間前綴分支,利用共享前綴分攤運算並透過剪枝分配預算;多輪/工具 rollout 在動作-觀察迴圈中執行。
指導與鷹架包括 ICL 種子、計劃條件、反思子 rollout、自適應指導強度和工具增強。取樣策略包括解碼參數(溫度、top-p)、不確定性感知取樣(根據獎勵變異數或語義熵分配運算)和僅取樣推理增強。
代表性方法包括 GRPO、DAPO、TreeRPO、TreeRL、RAGEN 等。
5 過濾:從 Rollout 到學習訊號
Filter 模組將候選 rollout 映射為中間訊號和面向優化器的監督。形式化為:ϕ_i = F(τ^(i); T(x)),包含結構有效性門控(解析/編譯/可執行性)、正確性驗證(單元測試、精確匹配)、過程品質評分(步級 PRM)、比較評估(成對/列表性評判)、學習價值訊號(不確定性、熵)和訓練訊號建構(權重、優勢、標籤)。
結構有效性門控過濾掉格式不匹配的 rollout,減少假陰性。正確性驗證用於程式碼(單元測試)和數學(精確匹配)。過程評分提供步級部分信用。比較評估透過評委實現相對偏好。學習價值訊號用於加權或引導取樣。
代表性方法包括 xVerify、RLTF、CodeRL、Lightman 等人的 PRM、GRPO 的組內歸一化等。
6 控制:運算分配、決策規則與同/離策略控制
Control 模組回答的是:在有限預算下,哪些樣本值得繼續 roll out,哪些前綴應該提前停止,哪些分支應該擴展或剪掉,以及訓練時應該混合多少新鮮 on-policy 資料和歷史 off-policy 資料。它把 Filter 產生的中間訊號、每條軌跡的運算成本以及全域預算約束轉化為一系列決策,從而直接塑造實際被優化器看到的 rollout 組分佈。換句話說,Generate 決定「能生成什麼」,Filter 決定「哪些訊號可用」,而 Control 決定「把算力花在哪裡」。
從形式上看,Control 可以被理解為預算約束下的序貫決策過程。對一個 prompt x,系統維護一組正在展開的部分軌跡前綴,並在每一步根據成本 c(τ)、預算 B、Filter 訊號 ϕ 和訓練監督 S 決定繼續、剪枝、重取樣或儲存。論文將其目標寫成在每個 prompt 或全域預算約束下最大化學習效用 U(T),這裡的效用可以是可用樣本量、訊號強度、正確性提升或其他訓練價值代理。
6.1 提示與任務選擇
第一類控制發生在 rollout 之前:選擇哪些 prompt 值得生成。傳統做法通常從訓練分佈中均勻取樣,但許多 prompt 貢獻的學習訊號很低。例如,當一個 rollout 組裡的所有樣本獎勵完全相同,GRPO 類方法的組內優勢會坍縮為零,幾乎沒有梯度。GRESO 試圖預測這種零變異數 prompt 並在保留探索的同時跳過它們;VCRL 則把組內獎勵變異數視為樣本難度代理,認為太容易或太難的 prompt 往往變異數低,中等難度 prompt 更能產生有用學習訊號。
另一條線使用不確定性建模做任務選擇。VADE 用 Beta 後驗估計每個 prompt 的正確率,並透過 Thompson sampling 偏向資訊量高的 prompt;SEED-GRPO 不直接選擇 prompt,而是根據多個答案的語義熵調節策略更新幅度,對高不確定樣本採取更保守更新;SEC 則把課程選擇建模為非平穩多臂老虎機,在類別層面學習哪些難度或任務類型能帶來更高學習收益。它們共同體現出一個趨勢:rollout 分配不再是固定取樣過程,而是自適應資源管理問題。
6.2 預算與調度
第二類控制決定每個 prompt 分配多少 rollout 寬度、深度和 token 預算。早期 GRPO 風格訓練常採用固定 K 個候選,但固定寬度會在簡單題上浪費運算,也可能在困難題上探索不足。論文總結了變異數感知、困難度感知和不確定性感知的調度方法:對低資訊樣本少取樣,對爭議樣本或高不確定樣本增加候選數、搜尋深度或 token 預算。
這種調度也影響系統吞吐。長 reasoning rollout 具有明顯長尾,少數超長樣本會拖慢同步訓練。控制層因此需要把 rollout 數量、最大長度、候選組大小、樹搜尋寬度以及 batch 負載均衡放在同一個預算框架下考慮。其核心權衡是:固定預算帶來穩定實作,自適應預算提升運算效率,但也可能引入選擇偏差和復現難度。
6.3 Rollout 配置控制
第三類控制針對單條軌跡的形態,包括最大長度、是否「深思考」、溫度、top-p、簡潔性獎勵、正負樣本比例等。ShorterBetter 用最短正確答案定義 Sample Optimal Length(SOL),希望學到實例自適應的最優 CoT 長度;DECS 指出軌跡級獎勵和 token 級優化之間存在錯配,因此引入解耦 token 級獎勵和課程 batch 調度,減少冗餘 token 而不壓制必要探索。
是否需要長推理本身也可以被控制。AdaptThink 觀察到簡單問題上直接回答模式可能優於長推理,因此訓練模型根據題目難度選擇 thinking 或 no-thinking 模式;Large Hybrid-Reasoning Models 用冷啟動微調加線上 RL 學習混合思考決策;CoRL 則關注調用外部 LLM 推理時的效能-成本權衡。GFPO 和 Train Long, Think Short 進一步說明:訓練階段多花一點取樣和篩選成本,可能換來測試階段更短、更高效的推理。
6.4 提前退出、分支、同/離策略與系統吞吐
Control 還覆蓋部分 rollout 的提前退出、樹搜尋剪枝以及多智能體分支控制。若某個前綴已經被局部檢查器判定成功或高置信失敗,系統可以停止繼續生成;若樹上某些分支前景較差,可以剪枝,把預算轉移給更有希望的分支。TreeRPO 等方法利用樹取樣估計不同推理步驟的期望獎勵,構造更密集的步驟級訓練訊號。
最後,Control 也決定 on-policy 和 off-policy 資料如何混合。on-policy rollout 與當前策略一致,但昂貴;歷史 replay 能提高樣本效率,卻帶來策略漂移風險。RePO 在 GRPO 中加入 replay buffer,ReMix 讓 PPO/GRPO 等 on-policy RFT 方法利用 off-policy 資料;AR3PO 則透過在當前策略下重新計算舊回應 token 機率來緩解重要性比率失控。系統層面,ReSpec、DAS、TLT、EARL、Seer 等方法把 speculative decoding、長尾負載均衡、動態並行和相似樣本復用納入控制問題,以提升 rollout 吞吐。
7 重播:保留、復用與自我演化
Replay 模組關注 rollout 結束後「什麼值得留下、如何復用、何時丟棄」。它不是簡單的資料快取,而是把過去生成的軌跡、驗證訊號、子步驟、失敗樣本、正確錨點和工具互動記錄組織成可檢索工件,使未來 Generate、Filter 和 Control 都能受益。論文用儲存規則 Rstore 和檢索規則 Rretrieve 來形式化 Replay:前者決定哪些軌跡或訊號進入緩衝區,後者根據相似度、正確性、多樣性、成本和新鮮度為新 prompt 檢索相關工件。
7.1 回應重取樣與保留
最直接的 replay 是把完整回應作為可復用單元。其作用有兩類:一是復用過去高價值樣本,提升資料效率;二是在組歸一化目標中穩定優勢訊號。例如,當當前 prompt 的所有 rollout 都錯誤時,GRPO 的獎勵變異數為零,梯度會消失。DAPO 透過動態取樣繼續尋找既非全錯也非全對的 batch,但會增加推理成本;AR3PO 則保留早期正確回應,當目前組全錯時注入快取正確樣本,讓錯誤 rollout 獲得負優勢而不是零梯度。
Replay buffer 也支援 off-policy 復用。RePO、ReMix、ExGRPO 等方法利用歷史回應改進樣本效率,同時需要處理策略漂移和重要性權重問題。如果舊策略 πθ− 與當前策略 πθ 差異太大,復用樣本可能帶來偏差;因此需要重算機率、約束 KL、按正確性/熵/學習進展排序,或者設定刷新和淘汰機制。
7.2 軌跡重組與片段復用
第二種 replay 粒度不是整條軌跡,而是可驗證片段。長推理、程式碼修復、工具調用和代理任務往往包含多個子問題或子軌跡,其中某些前綴、補丁、測試、工具結果是可復用的。把這些片段切分、驗證、儲存,再在新任務中重組,可以分攤共享運算,也能把學習訊號從「終局正確/錯誤」細化到局部步驟。
這種思想尤其適合程式碼、SQL、數學證明和多步代理。程式碼任務裡,已驗證補丁、單元測試、錯誤日誌和修復片段可以被快取;數學任務裡,正確中間引理或短正確片段可作為未來解題鷹架;工具代理裡,成功的網頁導航子流程或 API 調用序列可轉成可檢索技能。相比整條 replay,片段 replay 更靈活,但也更依賴邊界切分、片段正確性驗證和上下文相容性判斷。
7.3 自我演化課程與內在回饋
第三種 replay 更進一步:rollout 不只是訓練資料,而會主動擴展訓練分佈。STaR、Self-Rewarding、Self-Play RL、AGILE/Auto-RL、Agent0、LANCE 等方法都體現了這種自我演化思路。模型可以生成新任務、反思已有缺陷、構造更難樣本、給資料打偏好標籤,甚至讓一個課程智能體和一個執行智能體相互促進:課程智能體提出更難、更需要工具的問題,執行智能體透過 RL 學會解決這些問題。
這類方法的潛力在於減少人工標注依賴、持續擴展能力邊界;風險則在於偏差累積、品質漂移和不可追蹤。若自生成任務越來越偏離真實需求,或獎勵模型與策略共同漂移,Replay 會把錯誤偏好固化進訓練。論文因此強調 replay 需要記錄來源、策略版本、驗證器結果、時間戳和刷新狀態,確保復用樣本既有價值也可審計。
8 領域與案例研究
論文把基準看作 rollout 介面:任務實例 x 來自分佈 D,模型在介面中產生軌跡 τ=(x,u1:T,o1:T),其中 u 是模型動作,o 是環境觀察。不同領域的核心差異不只是任務內容,而是介面回傳什麼回饋、驗證器是否可靠、軌跡是否多輪、能否復用片段,以及預算應如何在深度、寬度和重播之間分配。
8.1 可驗證語言介面
數學、程式碼和 SQL 是最典型的可驗證語言介面。數學任務通常是純文字 rollout,終局答案經過歸一化後用精確匹配或規則驗證;DeepSeekMath、DeepSeek-R1、SEED-GRPO 等系統展示了 RLVR 風格目標如何與數學資料和取樣策略結合。TreeRL、TreeRPO、VCRL 等方法進一步說明,樹/組 rollout、變異數感知課程和不確定性取樣會顯著影響訓練穩定性與成本。
程式碼和 SQL 則是執行接地介面。模型輸出程式、補丁或查詢,驗證器由編譯、執行、單元測試或資料庫執行提供。CodeRL、RLTF、LiveCodeBench、BIRD、Arctic-Text2SQL-R1 等案例表明,執行回饋天然形成「生成-執行-觀察失敗-修復」的多階段 rollout。這裡 Filter 很具體:能否編譯、能否通過測試、執行結果是否等價;Replay 也很自然:可快取通過測試的補丁、錯誤日誌、部分查詢和已驗證片段。
8.2 多模態推理介面
多模態任務把輸入擴展為圖像、影片、空間場景或音影片片段。與數學/程式碼不同,多模態推理往往缺少通用強驗證器,因此系統需要把任務設計成可規則驗證,或者藉助結構化答案抽取、標籤檢查、合成資料和專門評測協議來獲得相對穩定的獎勵。R1-VL、MMR1、SpaceR、SPACEVISTA、InternSpatial、SPAR、VSI-Bench 等工作體現了這種方向。
對 GFCR 來說,多模態介面讓 Generate 更複雜:rollout 可能包含視覺觀察、文字推理和空間關係判斷;Filter 需要把自由文字答案轉成可檢查結構;Control 要決定是否需要更多視覺證據、更多取樣或更長 reasoning;Replay 則可以復用已驗證視覺-語言推理模板、空間關係片段或合成樣本生成策略。
8.3 代理互動基準
代理互動任務與純文字任務的關鍵差異是 o1:T 不為空:模型每一步動作都會改變環境並收到觀察。軟體工程基準(如 SWE-Bench、SWE-agent、SWE-Gym、Agent-RLVR)要求模型在程式碼庫中定位問題、編輯檔案、執行測試並根據回饋迭代。網頁代理基準(BrowserGym、AgentDojo、ARLAS)要求模型點擊、輸入、瀏覽並處理網頁狀態,也可能面對間接提示注入等安全風險。對話模擬器(RLVER、SAGE)則把使用者狀態和情緒軌跡作為可驗證獎勵來源。
這些基準中的 rollout 通常長、稀疏獎勵明顯、環境回饋昂貴。因此 Control 的作用被放大:何時停止、何時回退、何時開新分支、是否繼續調用工具,都決定成本與成功率。Replay 也從「記住答案」變成「記住過程」:成功的工具調用序列、網頁導航流程、程式碼編輯策略和失敗診斷都可能成為未來任務的可復用經驗。
8.4 代理技能基準
代理技能基準進一步考察模型能否從軌跡中歸納可復用技能,並遷移到新任務。WebArena、Mind2Web、BrowserGym 等環境中,Agent Workflow Memory 將子流程抽象為可檢索自然語言工作流;Agent Skill Induction 把技能表示為可重新執行的 Python 函式;SkillWeaver 讓代理自動發現並打磨可復用 API;ReUseIt 等工作關注技能在不同任務和模型間的復用。
在這一類介面中,GFCR 的四個模組更像一個長期學習迴圈:Generate 產生候選行動和技能調用,Filter 驗證技能是否成功,Control 決定是否存入技能庫或繼續探索,Replay 在新任務中檢索舊技能。論文強調,這類場景把 rollout 策略從「單次後訓練取樣技巧」推向「持續自我改進系統設計」:關鍵不只是一次任務成功,而是能否形成可維護、可追蹤、可遷移的經驗庫。
9 失敗模式與開放挑戰
常見 rollout 病理包括:零獎勵模式(所有 rollout 失敗)、獎勵駭客、長度膨脹、訊號雜訊、運算浪費、重播過時等。GFCR 框架提供了診斷索引,將每個病理映射到具體模組和緩解槓桿。開放挑戰包括:驗證器/評委校準、原則性運算核算、安全自我演化與溯源追蹤、改進彙報標準以增強可重複性。
10 結論
本綜述透過 GFCR 框架系統組織了 LLM 強化學習後訓練中的 rollout 策略。我們將 rollout 管線分解為生成、過濾、控制、重播四個模組,並輔以可靠性、覆蓋率、成本敏感性準則。透過數學、程式碼、多模態、代理等領域案例,展示了該框架的統一描述能力。我們提供了診斷索引和開放挑戰,期望推動更可重複、高效且可信的 rollout 管線設計。
專知便捷查看,訪問下面網址或點擊最底端「閱讀原文」
https://www.zhuanzhiai.com/vip/cc0d8a7422e5e0c2043645d12313dd5c
更多AI資料教程請上專知網站 www.zhuanzhiai.com