自己進化エージェントの新たなブレークスルー！MetaがDr. Zeroを発表：自発的に複雑な推論と検索能力を獲得

自己進化エージェント（Agent）に新たな進展が見られる。

近日、Metaのスーパーマインドラボとイリノイ大学アーバナシャンペーン校（UIUC）が共同で、Dr. Zeroフレームワークを提案した。このフレームワークにより、エージェントはゼロの訓練データ条件下で効率的な自己進化を実現できる。

同フレームワークは、多ラウンド検索エージェントがデータなしの自己進化において直面する「問題の多様性の制限」「多ステップ推論とツール使用には大量の計算リソースが必要」といった難題を解決した。

研究チームは革新的に「ホップ分割グループ相対戦略最適化」（HRPO）手法を提案した。構造的に類似した問題をクラスタリングし、堅牢なグループレベルのベンチマークを構築することで、訓練の有効性を保証しながら、自己進化プロセスにおける高価なネストサンプリングの必要性を回避した。

実験では、このフレームワークが複雑な質問応答タスクにおいて、人手によるアノテーションデータなしで、完全監督ベースラインを最大14.1%上回る性能を示した。これは、検索強化モデルが高度な推論タスクにおいて強力な可能性を秘めていることを証明している。

同時に、人手によるアノテーションデータが一切ない状況でも、適切なアーキテクチャ設計と報酬メカニズムを通じて、エージェントは自発的に複雑な推論と検索能力を獲得できることが分かった。これは、データが乏しい環境でのモデル訓練問題を解決するための新たな視点を提供する。

AI自己進化におけるデータ不足の難題

強力なモデルを訓練するには、通常、大量で高品質な人手アノテーションデータが必要となる。特に複雑な推論や多ステップ検索を伴うタスクでは、正確なアノテーションデータの取得は時間とコストがかかる。長年提唱されている「適応言語エージェント」の概念は、モデルが反復学習を通じて性能を向上させることを目指しているが、現行の主流手法は依然として真の自己進化を実現できていない。これらは依然として、人手が精心に作成した大量の問題やラベルをプロンプトとして探索を駆動することに大きく依存している。この人手介入への依存は、AIが未知の境界を探索する能力を制限している。

この限界を突破するため、学界はデータなしの自己進化を探索し始めている。つまり、モデルが自主的に問題を生成して解決し、合成訓練データを構築する 것이다。しかし、実験室から実際の応用へ移行するには、大きな課題が残っている。

理想的な自己進化フレームワークは、AIがアノテーションデータセットなしで、「提案者-解決者協同進化」（proposer-solver co-evolution）を通じて、性能のスパイラル的上昇を実現できる。

図 | 適応訓練フレームワーク（Huangら、2025a）。最小化監督反復訓練により提案者と解決者を訓練する。

現在の自己進化研究は、数学、プログラミングなど、定義が明確でルールが閉じた特定の分野に集中している。これらの分野では、データの多様性が限られていても、モデルは良好な進展を遂げられる。

しかし、開放分野に入ると状況は完全不同する。モデルは単純な単一ホップ問題を生成する傾向があり、挑戦性に欠ける。多ステップ推論と検索ツールの使用には膨大な計算リソースが必要で、モデルに大量の盲目的な試行錯誤を通じて最適化させる場合、計算コストは耐えられないものになる。

そのため、AIが複雑な開放世界で、人手データに依存せず、効率的に高品質な自己進化を実現する方法は、Dr. Zeroが解決しようとしている核心的な難題である。

Dr. Zero：「ゼロデータ」自己進化学習システム

Dr. Zeroは単なるモデルではなく、自己改善できる学習システムである。そのコアデザインは主に3つの側面から構成されている。

1. 提案者-解決者協同進化

フレームワーク内には、2つのコアロールである提案者（proposer）と解決者（solver）が含まれている。両者は大型言語モデルによって担われ、訓練プロセスにおいて協同進化する。

図｜Dr. Zero自己進化フィードバックループ。解決者のフィードバックの導きの下、提案者は検証可能で挑戦的なクエリを合成し、解決者の検索と推論能力を不断に強化する。

提案者のタスクは単に問題を生成するだけでなく、外部検索エンジンを利用して、開放分野の情報を能動的に探索し、多様で構造の複雑な問題を生成することである。より重要なのは、訓練の進行に伴い、提案者が報酬に基づいて自身の戦略を最適化し、より複雑で挑戦的だが検証可能な新しい問題を生成することである。

解決者のタスクは、外部検索エンジンを利用して情報を取得し、これらの質問に答えようとする 것이다。提案者が生成した合成問題に基づいて訓練され、自身の推論ロジックと検索ツールの使用能力を不断に最適化する。解決者のレベルが向上するにつれて、逆に提案者に新たな問題を生成するためのより巧妙な角度を求めることになる。

図 | Dr. Zeroにおける提案者と解決者の反復報酬動態の変化過程。ベースライン報酬値は反復と共に低下し、これはモデル間の協同進化を反映している：あるモデルの性能が向上すると、自然に別のモデルの初期報酬閾値が低下し、強化学習メカニズムを通じてその持続的な自己最適化を促進する。

2. ホップ分割グループ相対戦略最適化

AIに自己進化させる際、最大の障害は往々にして計算能力である。従来の強化学習手法（GRPOなど）は、問題の良し悪しを正確に評価するために「ネストサンプリング」を行う必要がある。つまり、同じプロンプトに対して複数の問題を生成するのである。HRPOはこの問題を巧妙に解決した。

従来の手法は計算量が大きく、構造の多様な開放問題に対してはグローバルベンチマーク評価が不安定である。HRPOは構造的に類似した問題（例えば、推論ステップの「ホップ」数の複雑さに基づいて）をクラスタリングし、グループレベルのベンチマークを構築する。これは、モデルが各プロンプトに対して多くの重複問題を生成してテストする必要がなく、各プロンプトに対して単一の問題を生成し、グループ内の他の問題のパフォーマンスと比較することで、堅牢な評価結果を得られることを意味する。これにより、高価なネストサンプリングを直接回避し、訓練効果を保証しながら、計算コストを大幅に削減できる。

3. 難易度誘導報酬メカニズム

提案者に高品質な難問を生成させるにはどうすればよいか？Dr. Zeroは、細やかな難易度誘導報酬メカニズムを採用している。

報酬メカニズムは、提案者に複雑で多ホップ、難易度はあるが検索エンジンで検証可能なクエリを生成するよう動機づける。単純な単一ホップ問題だけではない。問題に挑戦性があることを奨励するだけでなく、問題の答えが検索エンジンが返す情報によって客観的に検証可能でなければならないことを保証し、評価できない開放的または主観的な問題の生成を避ける。

Dr. Zeroは、拡張可能で効率的なフレームワークとして、データなしの自己進化反復を通じて提案者と解決者を向上させる。各反復において、提案者は異構なホップ構造を持つ一連のQAペアを生成する。解決者のフィードバックを利用し、提案者はHRPOを通じて、検証可能で多様かつ挑戦的なクエリを生成するよう最適化する。同時に、解決者はGRPOを通じて生成されたデータを利用して、検索と推論能力を向上させる。この交互最適化ループは共生フィードバックメカニズムを形成する：解決者の能力が向上するにつれて、単純なクエリの報酬は徐々に減少し、提案者に利益を最大化するためのより複雑な推論経路を探索することを強制する。

データなし進化がデータあり監督を上回る

Dr. Zeroの検索と推論能力を包括的に評価するため、実験は開放分野質問応答の多様なシナリオをカバーし、広範囲にわたるベンチマークテスト体系を構築した。

これには、NQ（Natural Questions）、TriviaQAなどの単一ホップタスクが含まれ、モデルの単一事実に基づく正確な検索と回答能力をテストする。また、HotpotQA、MuSiQue、2WikiMQAなどの多ホップ複雑タスクも含まれ、モデルに多ラウンド検索、情報統合、一貫した推論を要求し、エージェントの相互作用と深い理解能力に極めて高い課題を課す。

図 | 異なる生成問題分布を受け入れたDr. Zeroの性能表現。

上記の評価に基づき、研究チームは以下の結論を得た：

1. 性能が監督ベースラインに匹敵または上回る

Dr. Zeroは複数回の自己進化を経て、複数の開放分野質問応答ベンチマークにおいて、人手アノテーションデータを使用して訓練された完全監督検索エージェントベースライン（Search-R1など）と同等またはそれ以上の性能を示した。例えば、一部のタスクでは最大14.1%の性能向上を実現した。実験結果は、データなし進化が達成した性能水準が信頼できかつ堅牢であることを証明している。

2. 他のデータなしベースラインを大幅に上回る

既存のデータなし手法（自問式言語モデルSQLMや自己進化推論モデルR-Zeroなど）と比較して、Dr. Zeroはすべてのタスクで最良の性能を示し、性能は平均してSQLMとR-Zeroをそれぞれ39.9%と27.3%上回った。これは特に複雑な多ホップタスクに顕著で、Dr. Zeroが難易度誘導報酬によって生成した問題により、最適化されたR-Zero*と比較して性能が平均83.3%向上した。これは、複雑な推論能力の促進における独自の優位性を強調している。

3. 規模効果が顕著で、フレームワークの拡張性を検証

研究チームは、明確なモデル規模効果も観察した。7Bパラメータ規模のモデルは、2WikiMQAなどの複雑な多ホップ推論データセットで特に顕著な性能を示し、有意な相対的向上（7.67%）を実現した。これは、Dr. Zeroフレームワークが良好な拡張性を持ち、より大規模なモデルがこの自己進化メカニズムをより効果的に利用し、より複雑で相互依存度の高い検索と推論タスクを処理できることを示している。

著者：王躍然

転載や投稿をご希望の方は、本記事のコメント欄に直接留言してください。