500 件のシードデータと 4 つの自律エージェントによる自己進化で推論能力が 10.7% 向上

LiveCodeBench で 8.9%、OlympiadBench で 10.7% の向上――この数字は、わずか 500 件のシードサンプルから訓練を開始したフレームワークによってもたらされたものです。大規模な人手によるアノテーションも、外部の教師モデルも不要。同一の LLM から分岐した 4 つのエージェントが互いに出題し、相互評価し、自己進化を遂げることで、基盤モデルの推論能力を新たな高みへと引き上げました。

本論文で提案されているフレームワークの名は「SAGE（Self-evolving Agents for Generalized reasoning Evolution：汎用推論進化のための自己進化エージェント）」。その中核となる発想は以下の通りです。1 つの LLM が出題者、計画者、解答者、審査者という 4 つの役割を同時にこなし、対話と協調を通じて自己訓練の完結したサイクルを形成する――これに尽きます。

強化学習による推論能力向上のボトルネックとは

RLVR（Reinforcement Learning with Verifiable Rewards：検証可能な報酬に基づく強化学習）は、LLM の推論能力を効果的に高めることが実証済みで、DeepSeek-R1 などがその代表例です。しかし、明らかな課題もあります。これらの手法は、検証可能な報酬信号を得るために大規模な人手アノテーションデータに強く依存しており、モデルの能力が人間に迫り、あるいは凌駕する段階に至ると、拡張性の壁にぶつかるのです。

最近では、この依存関係を解消すべく、自己対戦型やマルチエージェント手法が試みられています。例えば SPIRAL はゼロサムゲーム環境下での自律的改善を実現し、Absolute Zero はモデル自身にプログラミング問題を生成・求解させるアプローチです。しかし論文は、これら既存手法には共通して 2 つの短があると指摘します。複雑な多段階推論タスクを処理するための明示的な「計画能力」の欠如、そして品質管理の不十分さに起因する長期的な訓練の不安定性です。

4 つのエージェント、1 つの完結サイクル

SAGE のアーキテクチャ設計は極めて巧妙です。4 つのエージェントは同一の LLM 基盤を共有しつつ、役割ごとに異なる指示を与えることで機能を分化させています。

Challenger（出題者）：小規模なシードセットから参照問題をサンプリングし、より難易度の高い新規問題とその検証器（正解または実行可能なテストケース）を生成します。報酬は 3 要素で構成され、それぞれ 1/3 の重みづけがなされます。Critic による品質スコア、Solver の失敗率に基づく難易度報酬、そして形式に関する報酬です。

Planner（計画者）：問題を受け取ると、構造化された多段階の解法計画を生成します。Critic が計画の品質を採点し、閾値（論文ではβ=0.3）を超えた場合のみ Solver へ渡され、否则であれば Solver は直接解答を作成します。

Solver（解答者）：問題と承認済みの計画に基づき最終解答を生成します。報酬は、計画の品質スコア、検証器による正解スコア、形式報酬の加重平均（重みはそれぞれ 0.2、0.6、0.2）で算出され、正解性が最も重視されます。

Critic（審査者）：2 種類の信号を提供します。1 つ目は出力形式に対するソフトな採点、2 つ目は Challenger が生成した問題や Planner が作成した計画に対する品質評価（1〜10 点スケールで、[0,1] に正規化）です。重要なのは、正誤の判定は Critic 自身ではなく、外部の検証器が担当する点であり、これにより自己評価に伴う循環バイアスを回避しています。

SAGE フレームワークの全体像を示す図

[図 1：SAGE フレームワークの概要] 専門化された 4 エージェント（Challenger、Planner、Solver、Critic）が、品質フィルタリングと形式検証を介して相互作用し、閉じた自己進化サイクルを実現しています。

SAGE の訓練フローを示す図

[図 2：SAGE の訓練フロー] (1) Challenger が参照例から問題を生成し、Critic が品質フィルタリングを実施。(2) 合格した問題がデータセットを拡張。(3) サンプリングされた問題を Planner と Solver が処理して解答を生成。(4) 全エージェントが Task-Relative REINFORCE++ アルゴリズムにより同時更新され、役割別に正規化されたアドバンテージ関数を採用。

ここで特筆すべき設計が、品質フィルタリングと難易度抑制メカニズムです。Critic による品質スコアが閾値α=0.7 を下回った場合、その問題は訓練データに追加されず、難易度報酬も付与されません。「一見難しそうだが実際には誤っている」といった問題が訓練信号を汚染するのを防ぐためです。この仕組みは、長期的な自己訓練の安定性に不可欠です。

全エージェントの同時更新には「Task-Relative REINFORCE++」アルゴリズムを採用。各役割ごとにアドバンテージ関数の平均と標準偏差を個別に計算して正規化することで、異種多様な目的関数を持つマルチエージェント環境下での訓練調整問題を解決しています。

500 件のデータで何が可能か

訓練に用いたデータセットは、わずか 500 件のサンプルのみです。内訳は MATH から 156 件、GSM8K から 148 件、HumanEval から 87 件、MBPP から 109 件。評価対象は、数学推論（GSM8K、MATH、AIME'24、AIME'25、OlympiadBench、AMC'23）とコード生成（HumanEval+、MBPP+、LiveCodeBench v1-v5）の 2 分野。基盤モデルには Qwen-2.5-3B-Instruct、Qwen-2.5-7B-Instruct、Qwen-3-4B-Base の 3 種類を採用しました。

主要な推論ベンチマークの結果を表形式で比較した表

[表 1：推論ベンチマークの主要結果] 3 種類のモデル規模において、後訓練手法の pass@1 正解率を比較。SAGE は全 3 モデルで最高性能を記録。

代表的な数値を挙げましょう。Qwen-2.5-7B では、LiveCodeBench のスコアが 17.5% から 26.4% へ（+8.9%）、OlympiadBench が 28.0% から 38.7% へ（+10.7%）と大幅向上。全体平均も 47.6% から 50.1% へと上昇しました。

比較対象の AZR や MAE は一部ベンチマークで向上が見られたものの、一貫性を欠き、場合によっては性能が後退するケースも。例えば AZR は Qwen-3-4B において Math Avg.を 56.3% から 46.7% へと急落させました。一方、SAGE は全ベンチマーク群で性能低下を一切起こしていません。

分布内と分布外での汎化性能を比較した表

[表 2：分布内と分布外での汎化性能の比較] SAGE は 7B モデルにおいて OOD 平均を 4.2% 向上させつつ、分布内精度を犠牲にしていません。

ただし、より高性能な Qwen-3-4B では、全体としての向上幅は 0.2%（55.7% → 55.9%）に留まり、主な恩恵は LiveCodeBench（+9.1%）に集中しています。これは、基盤モデルが十分に強力な場合、自己進化による限界効用が逓減しつつあることを示唆しています。

構成要素の除去実験と訓練ダイナミクス

SAGE 各コンポーネントの除去実験結果を示す表

[表 3：SAGE コンポーネントの除去実験] Qwen-2.5-3B において、各エージェントの訓練を個別に除去した場合の影響を評価。Solver の訓練を除去すると、全体性能が最も大きく低下。

除去実験の結果、Solver の訓練を除外すると全体平均が最も大きく低下（42.0% → 38.2%）。Challenger の訓練を除外すると、主にコード系ベンチマークに影響し、LiveCodeBench が 16.9% から 9.0% へと急落。Critic の訓練を除外すると数学への影響は小さいものの、コード性能が著しく劣化します。Challenger と Solver の対話的相互作用が中核的な進化サイクルを構成し、Critic は不可欠な品質管理機能を担っていることがわかります。

Qwen-2.5-3B における訓練過程の推移を示すグラフ

[図 3：Qwen-2.5-3B における訓練ダイナミクス] Challenger は訓練中に問題数を継続的に増加させるが、検証正解率は約 100〜120 ステップでピークに達した後、徐々に低下。これは、自己生成されたカリキュラムへ過剰適合している可能性を示唆。

興味深い発見として、訓練中に有効な問題数が 1,136 から 20,532 へと 18 倍に増加する一方、検証正解率は約 100 ステップで 69.5% のピークを迎えた後、下降に転じています。問題数の増加が即座に性能向上を意味するわけではないことは、カリキュラムの多様性と難易度調整の重要性を浮き彫りにし、論文が約 100 ステップ時点で主要結果を報告している理由もここにあります。

X による考察

SAGE は、正解の自動検証が可能な領域（数学・プログラミング）でのみ機能します。また、起動のために 500 件のシードサンプルが必要であり、評価範囲も数学とコードの 2 分野に限定されています。さらに、訓練ダイナミクスの分析から過剰適合の傾向が確認されているため、実運用時には訓練曲線を監視し、適切な早期終了（アーリーストップ）を施す必要があります。

SAGE は、極めて少数のシードデータからマルチエージェントによる閉じた自己進化サイクルを起動し、LLM に推論タスクでの継続的な自己向上を可能にする、説得力のある技術的道筋を示しました。出題・計画・解答・審査という 4 役割の分担は、いずれも欠くことができず、訓練信号の品質とカリキュラムの難易度のバランスを支える要です。このパラダイムが、検証可能な領域の境界を突破し、より開かれた推論シナリオへと進化できるかどうかは、今後注目すべき重要な研究方向でしょう。

SAGE の将来性や課題を示唆するイラスト

原著論文タイトル：SAGE: Multi-Agent Self-Evolution for LLM Reasoning
原著論文 URL：https://arxiv.org/abs/2603.15255

#无影寺