生成-過濾-控制-重播：LLM強化學習中Rollout策略的全面綜述

強化學習（RL）已成為提升大語言模型（LLM）推理能力的核心後訓練工具。在 RL 後訓練系統中，rollout——即從提示（prompt）到終止的取樣軌跡，包含中間推理步驟以及可選的工具或環境互動——決定了優化器學習所用的資料。然而，rollout 設計常被低估，僅被視為實作細節。本綜述為基於 RL 的推理 LLM 後訓練提供了優化器無關的 rollout 策略視角。我們形式化統一符號的 rollout 管線，並引入GFCR（生成-過濾-控制-重播）生命週期分類法，將 rollout 管線分解為四個模組化階段：Generate（生成）提出候選軌跡；Filter（過濾）透過驗證器、評委或評論家建構中間訊號；Control（控制）在預算下分配運算資源並做出繼續/分支/停止決策；Replay（重播）在不更新權重的情況下，跨 rollout 保留和復用工件。我們還補充了可靠性、覆蓋率與資訊性、成本敏感性三條準則，用於闡述 rollout 設計必須權衡的要素。透過數學、程式碼/SQL、多模態推理、工具使用代理和代理技能基準等案例研究，我們驗證了該框架的有效性。

1 引言

隨著強化學習在 LLM 後訓練中地位的提升，rollout 策略的重要性日益凸顯。一個 rollout 是從提示到終止的取樣軌跡，在純文字設定中表現為包含中間推理和最終答案的完整輸出；在工具或環境互動設定中，則包含動作-觀察迴圈和外部回饋。rollout 設計常常主導訓練成本和學習訊號品質，但現有文獻多集中於優化演算法和獎勵建模，rollout 策略的細節往往被低估或隱藏。

論文中的四幅配圖如下：

圖 1
提供了 rollout 生命週期和 GFCR 分解的整體概覽。它展示了 rollout 管線可被理解為關於軌跡如何提出、中間訊號如何建構、運算如何分配以及跨 rollout 哪些工件被保留和復用的模組化選擇。
圖 2
展示了 GFCR 作為端到端 rollout 系統的完整流程。給定提示和運算預算，Generate 取樣一個 rollout 組；Filter 為每個 rollout 建構中間訊號和訓練監督；Control 根據成本和訊號決策繼續/剪枝/重取樣並決定儲存什麼；Replay 檢索/儲存工件以調節未來生成。目標是在運算約束下最大化期望效用。
圖 3
展示了 rollout 準則分類法，分為三個交叉維度：可靠性（透過驗證器或穩健評委實現可信訊號）、覆蓋率與資訊性（多樣候選和不一致性/不確定性）、成本敏感性（透過價值-成本比和提前停止實現預算下的價值）。
圖 4
展示了 Generate 模組的設計空間。rollout 提議機制可沿三個軸組織：拓撲與互動（單線、組、樹/圖、多輪/工具 rollout）、指導與鷹架（示例/規則、計劃、反思、自適應指導、工具增強）、取樣與探索配置（解碼參數、不確定性感知分配、部分 rollout 與恢復、僅取樣推理增強）。

本綜述的貢獻包括：首次系統組織 rollout 策略；提出 GFCR 和準則分類法；綜合各類 rollout 方法；透過多領域案例進行驗證；提供診斷索引和開放挑戰。

2 相關工作

我們將本綜述與現有調查進行對比。現有調查主要圍繞回饋建模、獎勵學習和優化目標組織，隱含地處理 rollout 策略。例如，RLHF 和偏好學習調查強調回饋收集與建模；RL 增強 LLM 調查總結 RLHF、RLAIF 和直接偏好系列；技術調查聚焦 RL 演算法和訓練機制；管線級調查分類 RL 出現在資料生成、預訓練、後訓練和測試時推理的哪些位置；推理和代理中心綜述則聚焦多步推理、搜尋和環境互動。相比之下，本綜述將 rollout 策略作為分析單位，提供模組化詞彙表比較不同系統如何組合拓撲、取樣、評分粒度、預算分配和經驗復用。

3 基礎：Rollout、準則與 GFCR 框架

本節建立基礎。首先介紹 GFCR 的功能分解：Generate、Filter、Control、Replay 四個模組。然後定義全局符號：rollout τ = (x, u_1:T, o_1:T)，其中 x 是提示，u_t 是模型動作，o_t 是環境觀察。訓練系統通常取樣單個 rollout 或一組 K 個 rollout。Filter 訊號記為 ϕ，訓練訊號 S 由 Score(ϕ) 得到。運算成本 c(τ) 和預算 B 約束整體優化。

GFCR 模組常交錯：Filter 訊號觸發 Control 決策（如剪枝、提前停止），Replay 工件種子化未來的 Generate，Control 策略決定哪些工件進入 Replay。

準則分類法描述三個訴求：可靠性（可驗證結果、穩健評委評分）、覆蓋率與資訊性（多樣候選、分歧訊號）、成本敏感性（價值歸一化、提前停止）。GFCR 是功能分解，準則是對選擇理由和評價方式的描述。

4 生成：如何提出軌跡

Generate 模組規定候選 rollout 的提議方式。輸出是候選集 T(x) = {τ^(i)}，受拓撲 Topo、指導 z 和取樣配置 κ_G 影響。拓撲分為線性、組、樹/圖和互動式四類。線性 rollout 取樣單軌跡；組 rollout 取樣 K 個平行候選，支援組內比較和變異數縮減（如 GRPO）；樹/圖 rollout 在中間前綴分支，利用共享前綴分攤運算並透過剪枝分配預算；多輪/工具 rollout 在動作-觀察迴圈中執行。

指導與鷹架包括 ICL 種子、計劃條件、反思子 rollout、自適應指導強度和工具增強。取樣策略包括解碼參數（溫度、top-p）、不確定性感知取樣（根據獎勵變異數或語義熵分配運算）和僅取樣推理增強。

代表性方法包括 GRPO、DAPO、TreeRPO、TreeRL、RAGEN 等。

5 過濾：從 Rollout 到學習訊號

Filter 模組將候選 rollout 映射為中間訊號和面向優化器的監督。形式化為：ϕ_i = F(τ^(i); T(x))，包含結構有效性門控（解析/編譯/可執行性）、正確性驗證（單元測試、精確匹配）、過程品質評分（步級 PRM）、比較評估（成對/列表性評判）、學習價值訊號（不確定性、熵）和訓練訊號建構（權重、優勢、標籤）。

結構有效性門控過濾掉格式不匹配的 rollout，減少假陰性。正確性驗證用於程式碼（單元測試）和數學（精確匹配）。過程評分提供步級部分信用。比較評估透過評委實現相對偏好。學習價值訊號用於加權或引導取樣。

代表性方法包括 xVerify、RLTF、CodeRL、Lightman 等人的 PRM、GRPO 的組內歸一化等。

6 控制：運算分配、決策規則與同/離策略控制

Control 模組回答的是：在有限預算下，哪些樣本值得繼續 roll out，哪些前綴應該提前停止，哪些分支應該擴展或剪掉，以及訓練時應該混合多少新鮮 on-policy 資料和歷史 off-policy 資料。它把 Filter 產生的中間訊號、每條軌跡的運算成本以及全域預算約束轉化為一系列決策，從而直接塑造實際被優化器看到的 rollout 組分佈。換句話說，Generate 決定「能生成什麼」，Filter 決定「哪些訊號可用」，而 Control 決定「把算力花在哪裡」。

從形式上看，Control 可以被理解為預算約束下的序貫決策過程。對一個 prompt x，系統維護一組正在展開的部分軌跡前綴，並在每一步根據成本 c(τ)、預算 B、Filter 訊號 ϕ 和訓練監督 S 決定繼續、剪枝、重取樣或儲存。論文將其目標寫成在每個 prompt 或全域預算約束下最大化學習效用 U(T)，這裡的效用可以是可用樣本量、訊號強度、正確性提升或其他訓練價值代理。

6.1 提示與任務選擇

第一類控制發生在 rollout 之前：選擇哪些 prompt 值得生成。傳統做法通常從訓練分佈中均勻取樣，但許多 prompt 貢獻的學習訊號很低。例如，當一個 rollout 組裡的所有樣本獎勵完全相同，GRPO 類方法的組內優勢會坍縮為零，幾乎沒有梯度。GRESO 試圖預測這種零變異數 prompt 並在保留探索的同時跳過它們；VCRL 則把組內獎勵變異數視為樣本難度代理，認為太容易或太難的 prompt 往往變異數低，中等難度 prompt 更能產生有用學習訊號。

另一條線使用不確定性建模做任務選擇。VADE 用 Beta 後驗估計每個 prompt 的正確率，並透過 Thompson sampling 偏向資訊量高的 prompt；SEED-GRPO 不直接選擇 prompt，而是根據多個答案的語義熵調節策略更新幅度，對高不確定樣本採取更保守更新；SEC 則把課程選擇建模為非平穩多臂老虎機，在類別層面學習哪些難度或任務類型能帶來更高學習收益。它們共同體現出一個趨勢：rollout 分配不再是固定取樣過程，而是自適應資源管理問題。

6.2 預算與調度

第二類控制決定每個 prompt 分配多少 rollout 寬度、深度和 token 預算。早期 GRPO 風格訓練常採用固定 K 個候選，但固定寬度會在簡單題上浪費運算，也可能在困難題上探索不足。論文總結了變異數感知、困難度感知和不確定性感知的調度方法：對低資訊樣本少取樣，對爭議樣本或高不確定樣本增加候選數、搜尋深度或 token 預算。

這種調度也影響系統吞吐。長 reasoning rollout 具有明顯長尾，少數超長樣本會拖慢同步訓練。控制層因此需要把 rollout 數量、最大長度、候選組大小、樹搜尋寬度以及 batch 負載均衡放在同一個預算框架下考慮。其核心權衡是：固定預算帶來穩定實作，自適應預算提升運算效率，但也可能引入選擇偏差和復現難度。

6.3 Rollout 配置控制

第三類控制針對單條軌跡的形態，包括最大長度、是否「深思考」、溫度、top-p、簡潔性獎勵、正負樣本比例等。ShorterBetter 用最短正確答案定義 Sample Optimal Length（SOL），希望學到實例自適應的最優 CoT 長度；DECS 指出軌跡級獎勵和 token 級優化之間存在錯配，因此引入解耦 token 級獎勵和課程 batch 調度，減少冗餘 token 而不壓制必要探索。

是否需要長推理本身也可以被控制。AdaptThink 觀察到簡單問題上直接回答模式可能優於長推理，因此訓練模型根據題目難度選擇 thinking 或 no-thinking 模式；Large Hybrid-Reasoning Models 用冷啟動微調加線上 RL 學習混合思考決策；CoRL 則關注調用外部 LLM 推理時的效能-成本權衡。GFPO 和 Train Long, Think Short 進一步說明：訓練階段多花一點取樣和篩選成本，可能換來測試階段更短、更高效的推理。

6.4 提前退出、分支、同/離策略與系統吞吐

Control 還覆蓋部分 rollout 的提前退出、樹搜尋剪枝以及多智能體分支控制。若某個前綴已經被局部檢查器判定成功或高置信失敗，系統可以停止繼續生成；若樹上某些分支前景較差，可以剪枝，把預算轉移給更有希望的分支。TreeRPO 等方法利用樹取樣估計不同推理步驟的期望獎勵，構造更密集的步驟級訓練訊號。

最後，Control 也決定 on-policy 和 off-policy 資料如何混合。on-policy rollout 與當前策略一致，但昂貴；歷史 replay 能提高樣本效率，卻帶來策略漂移風險。RePO 在 GRPO 中加入 replay buffer，ReMix 讓 PPO/GRPO 等 on-policy RFT 方法利用 off-policy 資料；AR3PO 則透過在當前策略下重新計算舊回應 token 機率來緩解重要性比率失控。系統層面，ReSpec、DAS、TLT、EARL、Seer 等方法把 speculative decoding、長尾負載均衡、動態並行和相似樣本復用納入控制問題，以提升 rollout 吞吐。

7 重播：保留、復用與自我演化

Replay 模組關注 rollout 結束後「什麼值得留下、如何復用、何時丟棄」。它不是簡單的資料快取，而是把過去生成的軌跡、驗證訊號、子步驟、失敗樣本、正確錨點和工具互動記錄組織成可檢索工件，使未來 Generate、Filter 和 Control 都能受益。論文用儲存規則 Rstore 和檢索規則 Rretrieve 來形式化 Replay：前者決定哪些軌跡或訊號進入緩衝區，後者根據相似度、正確性、多樣性、成本和新鮮度為新 prompt 檢索相關工件。

7.1 回應重取樣與保留

最直接的 replay 是把完整回應作為可復用單元。其作用有兩類：一是復用過去高價值樣本，提升資料效率；二是在組歸一化目標中穩定優勢訊號。例如，當當前 prompt 的所有 rollout 都錯誤時，GRPO 的獎勵變異數為零，梯度會消失。DAPO 透過動態取樣繼續尋找既非全錯也非全對的 batch，但會增加推理成本；AR3PO 則保留早期正確回應，當目前組全錯時注入快取正確樣本，讓錯誤 rollout 獲得負優勢而不是零梯度。

Replay buffer 也支援 off-policy 復用。RePO、ReMix、ExGRPO 等方法利用歷史回應改進樣本效率，同時需要處理策略漂移和重要性權重問題。如果舊策略 πθ− 與當前策略 πθ 差異太大，復用樣本可能帶來偏差；因此需要重算機率、約束 KL、按正確性/熵/學習進展排序，或者設定刷新和淘汰機制。

7.2 軌跡重組與片段復用

第二種 replay 粒度不是整條軌跡，而是可驗證片段。長推理、程式碼修復、工具調用和代理任務往往包含多個子問題或子軌跡，其中某些前綴、補丁、測試、工具結果是可復用的。把這些片段切分、驗證、儲存，再在新任務中重組，可以分攤共享運算，也能把學習訊號從「終局正確/錯誤」細化到局部步驟。

這種思想尤其適合程式碼、SQL、數學證明和多步代理。程式碼任務裡，已驗證補丁、單元測試、錯誤日誌和修復片段可以被快取；數學任務裡，正確中間引理或短正確片段可作為未來解題鷹架；工具代理裡，成功的網頁導航子流程或 API 調用序列可轉成可檢索技能。相比整條 replay，片段 replay 更靈活，但也更依賴邊界切分、片段正確性驗證和上下文相容性判斷。

7.3 自我演化課程與內在回饋

第三種 replay 更進一步：rollout 不只是訓練資料，而會主動擴展訓練分佈。STaR、Self-Rewarding、Self-Play RL、AGILE/Auto-RL、Agent0、LANCE 等方法都體現了這種自我演化思路。模型可以生成新任務、反思已有缺陷、構造更難樣本、給資料打偏好標籤，甚至讓一個課程智能體和一個執行智能體相互促進：課程智能體提出更難、更需要工具的問題，執行智能體透過 RL 學會解決這些問題。

這類方法的潛力在於減少人工標注依賴、持續擴展能力邊界；風險則在於偏差累積、品質漂移和不可追蹤。若自生成任務越來越偏離真實需求，或獎勵模型與策略共同漂移，Replay 會把錯誤偏好固化進訓練。論文因此強調 replay 需要記錄來源、策略版本、驗證器結果、時間戳和刷新狀態，確保復用樣本既有價值也可審計。

8 領域與案例研究

論文把基準看作 rollout 介面：任務實例 x 來自分佈 D，模型在介面中產生軌跡 τ=(x,u1:T,o1:T)，其中 u 是模型動作，o 是環境觀察。不同領域的核心差異不只是任務內容，而是介面回傳什麼回饋、驗證器是否可靠、軌跡是否多輪、能否復用片段，以及預算應如何在深度、寬度和重播之間分配。

8.1 可驗證語言介面

數學、程式碼和 SQL 是最典型的可驗證語言介面。數學任務通常是純文字 rollout，終局答案經過歸一化後用精確匹配或規則驗證；DeepSeekMath、DeepSeek-R1、SEED-GRPO 等系統展示了 RLVR 風格目標如何與數學資料和取樣策略結合。TreeRL、TreeRPO、VCRL 等方法進一步說明，樹/組 rollout、變異數感知課程和不確定性取樣會顯著影響訓練穩定性與成本。

程式碼和 SQL 則是執行接地介面。模型輸出程式、補丁或查詢，驗證器由編譯、執行、單元測試或資料庫執行提供。CodeRL、RLTF、LiveCodeBench、BIRD、Arctic-Text2SQL-R1 等案例表明，執行回饋天然形成「生成-執行-觀察失敗-修復」的多階段 rollout。這裡 Filter 很具體：能否編譯、能否通過測試、執行結果是否等價；Replay 也很自然：可快取通過測試的補丁、錯誤日誌、部分查詢和已驗證片段。

8.2 多模態推理介面

多模態任務把輸入擴展為圖像、影片、空間場景或音影片片段。與數學/程式碼不同，多模態推理往往缺少通用強驗證器，因此系統需要把任務設計成可規則驗證，或者藉助結構化答案抽取、標籤檢查、合成資料和專門評測協議來獲得相對穩定的獎勵。R1-VL、MMR1、SpaceR、SPACEVISTA、InternSpatial、SPAR、VSI-Bench 等工作體現了這種方向。

對 GFCR 來說，多模態介面讓 Generate 更複雜：rollout 可能包含視覺觀察、文字推理和空間關係判斷；Filter 需要把自由文字答案轉成可檢查結構；Control 要決定是否需要更多視覺證據、更多取樣或更長 reasoning；Replay 則可以復用已驗證視覺-語言推理模板、空間關係片段或合成樣本生成策略。

8.3 代理互動基準

代理互動任務與純文字任務的關鍵差異是 o1:T 不為空：模型每一步動作都會改變環境並收到觀察。軟體工程基準（如 SWE-Bench、SWE-agent、SWE-Gym、Agent-RLVR）要求模型在程式碼庫中定位問題、編輯檔案、執行測試並根據回饋迭代。網頁代理基準（BrowserGym、AgentDojo、ARLAS）要求模型點擊、輸入、瀏覽並處理網頁狀態，也可能面對間接提示注入等安全風險。對話模擬器（RLVER、SAGE）則把使用者狀態和情緒軌跡作為可驗證獎勵來源。

這些基準中的 rollout 通常長、稀疏獎勵明顯、環境回饋昂貴。因此 Control 的作用被放大：何時停止、何時回退、何時開新分支、是否繼續調用工具，都決定成本與成功率。Replay 也從「記住答案」變成「記住過程」：成功的工具調用序列、網頁導航流程、程式碼編輯策略和失敗診斷都可能成為未來任務的可復用經驗。

8.4 代理技能基準

代理技能基準進一步考察模型能否從軌跡中歸納可復用技能，並遷移到新任務。WebArena、Mind2Web、BrowserGym 等環境中，Agent Workflow Memory 將子流程抽象為可檢索自然語言工作流；Agent Skill Induction 把技能表示為可重新執行的 Python 函式；SkillWeaver 讓代理自動發現並打磨可復用 API；ReUseIt 等工作關注技能在不同任務和模型間的復用。

在這一類介面中，GFCR 的四個模組更像一個長期學習迴圈：Generate 產生候選行動和技能調用，Filter 驗證技能是否成功，Control 決定是否存入技能庫或繼續探索，Replay 在新任務中檢索舊技能。論文強調，這類場景把 rollout 策略從「單次後訓練取樣技巧」推向「持續自我改進系統設計」：關鍵不只是一次任務成功，而是能否形成可維護、可追蹤、可遷移的經驗庫。

9 失敗模式與開放挑戰

常見 rollout 病理包括：零獎勵模式（所有 rollout 失敗）、獎勵駭客、長度膨脹、訊號雜訊、運算浪費、重播過時等。GFCR 框架提供了診斷索引，將每個病理映射到具體模組和緩解槓桿。開放挑戰包括：驗證器/評委校準、原則性運算核算、安全自我演化與溯源追蹤、改進彙報標準以增強可重複性。

10 結論

本綜述透過 GFCR 框架系統組織了 LLM 強化學習後訓練中的 rollout 策略。我們將 rollout 管線分解為生成、過濾、控制、重播四個模組，並輔以可靠性、覆蓋率、成本敏感性準則。透過數學、程式碼、多模態、代理等領域案例，展示了該框架的統一描述能力。我們提供了診斷索引和開放挑戰，期望推動更可重複、高效且可信的 rollout 管線設計。

專知便捷查看，訪問下面網址或點擊最底端「閱讀原文」

https://www.zhuanzhiai.com/vip/cc0d8a7422e5e0c2043645d12313dd5c

更多AI資料教程請上專知網站 www.zhuanzhiai.com

點擊「閱讀原文」