500 筆種子數據、四個 Agent 自我進化，推理能力提升 10.7%

LiveCodeBench 提升 8.9%，OlympiadBench 提升 10.7%——這組數據來自一個僅使用 500 筆種子樣本啟動訓練的框架。過程中無需大規模人工標註，也無需外部教師模型，四個從同一個大型語言模型（LLM）分化出的 Agent 互相出題、互相評審、共同進化，最終將基座模型的推理能力推向全新高度。

這篇論文提出的框架名為 SAGE（Self-evolving Agents for Generalized reasoning Evolution，通用推理進化之自進化 Agent），其核心概念在於：讓單一 LLM 同時扮演出題者、規劃者、解題者與評審者四種角色，在對抗與協作的過程中完成自我訓練的閉環。

強化學習推理的瓶頸何在？

RLVR（Reinforcement Learning with Verifiable Rewards，基於可驗證獎勵的強化學習）已被證實能有效提升 LLM 的推理能力，DeepSeek-R1 等研究即是典型案例。然而問題同樣顯著：此類方法高度依賴大規模人工標註數據集以提供可驗證的獎勵信號，當模型能力逐漸逼近甚至超越人類時，便會遭遇可擴展性的瓶頸。

近期雖有自博弈與多 Agent 方法試圖突破此限制，例如 SPIRAL 利用零和博弈環境實現自主改進，Absolute Zero 則讓模型自行生成程式問題並自我求解。但論文指出，這些方法普遍存在兩大短板：一是缺乏明確的規劃能力以處理複雜的多步推理任務；二是品質控管不足，導致長週期訓練過程不穩定。

四個 Agent，一個閉環

SAGE 的架構設計相當精妙。四個 Agent 共用同一個 LLM 骨幹網路，僅透過不同的角色指令即可分化出不同功能：

Challenger（出題者）：從小型種子集中取樣參考問題，生成更具挑戰性的新題目及其驗證器（標準答案或可執行測試案例）。其獎勵由三部分組成：Critic 給出的品質分數、根據 Solver 失敗率計算的難度獎勵，以及格式獎勵，三者權重各佔三分之一。

Planner（規劃者）：收到題目後生成結構化的多步解題計畫。Critic 會針對計畫品質進行評分，只有分數超過閾值（論文設定為 β=0.3）的計畫才會傳遞給 Solver，否則 Solver 將直接作答。

Solver（解題者）：依據題目與通過審核的計畫生成最終答案。其獎勵為計畫品質分、驗證器正確性得分與格式獎勵的加權組合，權重分別為 (0.2, 0.6, 0.2)——其中正確性佔比最高。

Critic（評審者）：提供兩類信號：一是對輸出格式的軟評分，二是對 Challenger 生成的題目與 Planner 生成之計畫進行品質評分（1-10 分，並歸一化至 [0,1]）。關鍵在於，正確性判斷由外部驗證器完成，而非由 Critic 自行判斷，藉此避免自我評估產生的循環偏差。

SAGE 框架概覽圖

[圖 1：SAGE 框架概覽] 四個專門化的 Agent——Challenger、Planner、Solver 與 Critic——透過品質過濾與格式驗證進行互動，實現閉環自進化。

SAGE 訓練流程圖

[圖 2：SAGE 訓練流程] (1) Challenger 從參考樣例生成問題，經 Critic 品質過濾；(2) 通過驗證的問題擴充數據集；(3) 取樣問題由 Planner 與 Solver 處理生成解答；(4) 所有 Agent 透過 Task-Relative REINFORCE++ 聯合更新，採用按角色歸一化的優勢函數。

此處有個值得注意的設計：品質過濾與難度抑制機制。當 Critic 給出的品質分低於閾值 α=0.7 時，該題目不會被加入訓練集，同時難度獎勵項將直接被移除——防止那些「看似困難實則出錯」的題目污染訓練信號。此機制對長週期自訓練的穩定性至關重要。

所有 Agent 的聯合更新採用 Task-Relative REINFORCE++ 演算法，核心是對每個角色單獨計算優勢函數的均值與標準差進行歸一化，解決了多 Agent 異質目標下的訓練協調難題。

500 筆數據能做什麼？

論文的訓練集僅由 500 筆樣本組成：來自 MATH 的 156 筆、GSM8K 的 148 筆、HumanEval 的 87 筆、MBPP 的 109 筆。評估範圍涵蓋數學推理（GSM8K、MATH、AIME'24、AIME'25、OlympiadBench、AMC'23）與程式碼生成（HumanEval+、MBPP+、LiveCodeBench v1-v5）兩大領域。基座模型則包括 Qwen-2.5-3B-Instruct、Qwen-2.5-7B-Instruct 與 Qwen-3-4B-Base。

推理基準測試主要結果表格

[表 1：推理基準測試主要結果] 在三種模型規模上比較不同微調方法的 pass@1 準確率。SAGE 在所有三個模型骨幹上均取得最佳整體表現。

幾個關鍵數據：在 Qwen-2.5-7B 上，SAGE 將 LiveCodeBench 從 17.5% 提升至 26.4%（+8.9%），OlympiadBench 從 28.0% 提升至 38.7%（+10.7%）。總體平均分從 47.6% 提升至 50.1%。

對比基線部分，AZR 與 MAE 在某些單項基準上雖有提升，但表現不一致，甚至出現退化。例如 AZR 在 Qwen-3-4B 上導致數學平均分從 56.3% 暴跌至 46.7%。反觀 SAGE，在所有基準組上均未出現性能下降。

分佈內與分佈外泛化對比表格

[表 2：分佈內與分佈外泛化對比] SAGE 在 7B 模型上將 OOD（分佈外）平均提升 4.2%，同時未犧牲分佈內準確率。

但必須指出，在能力較強的 Qwen-3-4B 上，SAGE 的總體提升幅度收窄至 0.2%（55.7%→55.9%），主要增益集中在 LiveCodeBench（+9.1%）。這暗示當基座模型已足夠強大時，自進化的邊際效益可能遞減。

消融實驗與訓練動態

SAGE 組件消融實驗表格

[表 3：SAGE 組件消融實驗] 在 Qwen-2.5-3B 上移除單一 Agent 訓練的影響。結果顯示，移除 Solver 訓練導致整體下降幅度最大。

消融結果表明，移除 Solver 訓練導致整體平均下降最多（42.0%→38.2%）；移除 Challenger 訓練則主要影響程式碼基準，LiveCodeBench 從 16.9% 驟降至 9.0%；移除 Critic 訓練對數學影響不大，但嚴重拖累程式碼表現。Challenger 與 Solver 的對抗互動構成了核心進化循環，Critic 則提供不可或缺的品質控制。

Qwen-2.5-3B 上的訓練動態圖

[圖 3：Qwen-2.5-3B 上的訓練動態] Challenger 在訓練過程中持續擴充題庫，驗證準確率在約 100-120 步達到峰值後逐漸下降，暗示可能在自生成課程上出現過度特化。

一個有趣的發現：訓練過程中有效題目數量從 1,136 增長到 20,532（擴增 18 倍），但驗證準確率在約 100 步達到峰值 69.5% 後開始下降。題目數量的增長並不等於性能提升，這凸顯了課程多樣性與難度校準的重要性，也解釋了為何論文選擇在約 100 步時報告主要實驗結果。

小結

SAGE 目前僅能在可自動驗證正確性的領域（如數學、程式設計）運作；仍需 500 筆種子樣本啟動；評估範圍僅限數學與程式碼兩大領域。此外，訓練動態分析顯示的過度特化趨勢，意味著實際部署時需監控訓練曲線並適時提前停止訓練。

SAGE 展示了一條極具說服力的技術路徑：以極少量種子數據啟動多 Agent 閉環進化，讓 LLM 在推理任務上實現持續自我提升。四個角色的分工——出題、規劃、解題、評審——各自不可或缺，共同支撐起訓練信號品質與課程難度的平衡。至於此範式能否突破可驗證域的邊界、進入更開放的推理場景，將是未來值得持續關注的方向。

結語插圖

原文標題：SAGE: Multi-Agent Self-Evolution for LLM Reasoning
原文連結：https://arxiv.org/abs/2603.15255

#無影寺

500 筆種子數據、四個 Agent 自我進化，推理能力提升 10.7%

強化學習推理的瓶頸何在？

四個 Agent，一個閉環

500 筆數據能做什麼？

消融實驗與訓練動態

小結

相關文章推薦

分享網址