500 筆種子數據、四個 Agent 自我進化,推理能力提升 10.7%

LiveCodeBench 提升 8.9%,OlympiadBench 提升 10.7%——這組數據來自一個僅使用 500 筆種子樣本啟動訓練的框架。過程中無需大規模人工標註,也無需外部教師模型,四個從同一個大型語言模型(LLM)分化出的 Agent 互相出題、互相評審、共同進化,最終將基座模型的推理能力推向全新高度。

這篇論文提出的框架名為 SAGE(Self-evolving Agents for Generalized reasoning Evolution,通用推理進化之自進化 Agent),其核心概念在於:讓單一 LLM 同時扮演出題者、規劃者、解題者與評審者四種角色,在對抗與協作的過程中完成自我訓練的閉環。

強化學習推理的瓶頸何在?

RLVR(Reinforcement Learning with Verifiable Rewards,基於可驗證獎勵的強化學習)已被證實能有效提升 LLM 的推理能力,DeepSeek-R1 等研究即是典型案例。然而問題同樣顯著:此類方法高度依賴大規模人工標註數據集以提供可驗證的獎勵信號,當模型能力逐漸逼近甚至超越人類時,便會遭遇可擴展性的瓶頸。

近期雖有自博弈與多 Agent 方法試圖突破此限制,例如 SPIRAL 利用零和博弈環境實現自主改進,Absolute Zero 則讓模型自行生成程式問題並自我求解。但論文指出,這些方法普遍存在兩大短板:一是缺乏明確的規劃能力以處理複雜的多步推理任務;二是品質控管不足,導致長週期訓練過程不穩定。

四個 Agent,一個閉環

SAGE 的架構設計相當精妙。四個 Agent 共用同一個 LLM 骨幹網路,僅透過不同的角色指令即可分化出不同功能:

Challenger(出題者):從小型種子集中取樣參考問題,生成更具挑戰性的新題目及其驗證器(標準答案或可執行測試案例)。其獎勵由三部分組成:Critic 給出的品質分數、根據 Solver 失敗率計算的難度獎勵,以及格式獎勵,三者權重各佔三分之一。

Planner(規劃者):收到題目後生成結構化的多步解題計畫。Critic 會針對計畫品質進行評分,只有分數超過閾值(論文設定為 β=0.3)的計畫才會傳遞給 Solver,否則 Solver 將直接作答。

Solver(解題者):依據題目與通過審核的計畫生成最終答案。其獎勵為計畫品質分、驗證器正確性得分與格式獎勵的加權組合,權重分別為 (0.2, 0.6, 0.2)——其中正確性佔比最高。

Critic(評審者):提供兩類信號:一是對輸出格式的軟評分,二是對 Challenger 生成的題目與 Planner 生成之計畫進行品質評分(1-10 分,並歸一化至 [0,1])。關鍵在於,正確性判斷由外部驗證器完成,而非由 Critic 自行判斷,藉此避免自我評估產生的循環偏差。

SAGE 框架概覽圖

[圖 1:SAGE 框架概覽] 四個專門化的 Agent——Challenger、Planner、Solver 與 Critic——透過品質過濾與格式驗證進行互動,實現閉環自進化。

SAGE 訓練流程圖

[圖 2:SAGE 訓練流程] (1) Challenger 從參考樣例生成問題,經 Critic 品質過濾;(2) 通過驗證的問題擴充數據集;(3) 取樣問題由 Planner 與 Solver 處理生成解答;(4) 所有 Agent 透過 Task-Relative REINFORCE++ 聯合更新,採用按角色歸一化的優勢函數。

此處有個值得注意的設計:品質過濾與難度抑制機制。當 Critic 給出的品質分低於閾值 α=0.7 時,該題目不會被加入訓練集,同時難度獎勵項將直接被移除——防止那些「看似困難實則出錯」的題目污染訓練信號。此機制對長週期自訓練的穩定性至關重要。

所有 Agent 的聯合更新採用 Task-Relative REINFORCE++ 演算法,核心是對每個角色單獨計算優勢函數的均值與標準差進行歸一化,解決了多 Agent 異質目標下的訓練協調難題。

500 筆數據能做什麼?

論文的訓練集僅由 500 筆樣本組成:來自 MATH 的 156 筆、GSM8K 的 148 筆、HumanEval 的 87 筆、MBPP 的 109 筆。評估範圍涵蓋數學推理(GSM8K、MATH、AIME'24、AIME'25、OlympiadBench、AMC'23)與程式碼生成(HumanEval+、MBPP+、LiveCodeBench v1-v5)兩大領域。基座模型則包括 Qwen-2.5-3B-Instruct、Qwen-2.5-7B-Instruct 與 Qwen-3-4B-Base。

推理基準測試主要結果表格

[表 1:推理基準測試主要結果] 在三種模型規模上比較不同微調方法的 pass@1 準確率。SAGE 在所有三個模型骨幹上均取得最佳整體表現。

幾個關鍵數據:在 Qwen-2.5-7B 上,SAGE 將 LiveCodeBench 從 17.5% 提升至 26.4%(+8.9%),OlympiadBench 從 28.0% 提升至 38.7%(+10.7%)。總體平均分從 47.6% 提升至 50.1%。

對比基線部分,AZR 與 MAE 在某些單項基準上雖有提升,但表現不一致,甚至出現退化。例如 AZR 在 Qwen-3-4B 上導致數學平均分從 56.3% 暴跌至 46.7%。反觀 SAGE,在所有基準組上均未出現性能下降。

分佈內與分佈外泛化對比表格

[表 2:分佈內與分佈外泛化對比] SAGE 在 7B 模型上將 OOD(分佈外)平均提升 4.2%,同時未犧牲分佈內準確率。

但必須指出,在能力較強的 Qwen-3-4B 上,SAGE 的總體提升幅度收窄至 0.2%(55.7%→55.9%),主要增益集中在 LiveCodeBench(+9.1%)。這暗示當基座模型已足夠強大時,自進化的邊際效益可能遞減。

消融實驗與訓練動態

SAGE 組件消融實驗表格

[表 3:SAGE 組件消融實驗] 在 Qwen-2.5-3B 上移除單一 Agent 訓練的影響。結果顯示,移除 Solver 訓練導致整體下降幅度最大。

消融結果表明,移除 Solver 訓練導致整體平均下降最多(42.0%→38.2%);移除 Challenger 訓練則主要影響程式碼基準,LiveCodeBench 從 16.9% 驟降至 9.0%;移除 Critic 訓練對數學影響不大,但嚴重拖累程式碼表現。Challenger 與 Solver 的對抗互動構成了核心進化循環,Critic 則提供不可或缺的品質控制。

Qwen-2.5-3B 上的訓練動態圖

[圖 3:Qwen-2.5-3B 上的訓練動態] Challenger 在訓練過程中持續擴充題庫,驗證準確率在約 100-120 步達到峰值後逐漸下降,暗示可能在自生成課程上出現過度特化。

一個有趣的發現:訓練過程中有效題目數量從 1,136 增長到 20,532(擴增 18 倍),但驗證準確率在約 100 步達到峰值 69.5% 後開始下降。題目數量的增長並不等於性能提升,這凸顯了課程多樣性與難度校準的重要性,也解釋了為何論文選擇在約 100 步時報告主要實驗結果。

小結

SAGE 目前僅能在可自動驗證正確性的領域(如數學、程式設計)運作;仍需 500 筆種子樣本啟動;評估範圍僅限數學與程式碼兩大領域。此外,訓練動態分析顯示的過度特化趨勢,意味著實際部署時需監控訓練曲線並適時提前停止訓練。

SAGE 展示了一條極具說服力的技術路徑:以極少量種子數據啟動多 Agent 閉環進化,讓 LLM 在推理任務上實現持續自我提升。四個角色的分工——出題、規劃、解題、評審——各自不可或缺,共同支撐起訓練信號品質與課程難度的平衡。至於此範式能否突破可驗證域的邊界、進入更開放的推理場景,將是未來值得持續關注的方向。

結語插圖

原文標題:SAGE: Multi-Agent Self-Evolution for LLM Reasoning
原文連結:https://arxiv.org/abs/2603.15255

#無影寺


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.