自己進化型エージェントに関する最新の優れた体系的サーベイ

皆さん、こんにちは。PaperAgentです。エージェントそのものではありません！

最近、厦門大学、香港理工大学、メリーランド大学、ワシントン大学セントルイス校、UIUC、シンガポール経営大学など、複数の機関が共同で、自己進化型エージェント（Self-Evolving Agents）に関する体系的なサーベイを発表しました。

このサーベイは、ますます重要になっているある疑問に答えようとしています。

LLMエージェントが、もはや人間のラベル付きデータだけで学習されるのではなく、能動的に探索し、フィードバックを得て、戦略を更新し、経験を蓄積できるようになったとき、私たちはその「自己進化」をどのように理解すべきでしょうか？

2022年から2026年にかけて、エージェントに関する研究は、モデル自身の能力強化を中心とするアプローチから、環境との相互作用を通じてフィードバックを獲得し経験を蓄積する段階へと急速に移行し、さらにモデルと環境が相互に駆動し合い、共進化するという新たなパラダイムへと発展しています。ますます明確な技術的主線が形成されつつあります。

エージェントの能力境界は、モデルパラメータだけで決まるのではなく、環境とどのように相互作用し、その相互作用から持続的に利用可能な学習信号を獲得できるかどうかにも依存します。

1. なぜ自己進化型エージェントが必要なのか？

従来のエージェントシステムは、主に「二段階パラダイム」に依存していました。

事前学習（Pre-Training）：大規模コーパスを通じて汎用的な世界知識を学習する。
事後学習（Post-Training）：SFT、RLHF、RLAIF、またはタスクデータを通じて、モデルに特定のエージェント的能力を学習させる。

このパラダイムはLLMエージェントの発展を大きく推進しましたが、同時にますます顕著になるボトルネックも存在します。

エージェントが複雑になるほど、高品質な教師信号への依存度が高まります。しかし、高品質な人間によるラベリング、人的報酬、専門家によるフィードバックを無限に拡張することは困難です。

単純な質疑応答タスクであれば、人間が直接答えを書けます。しかし、複雑なエージェントタスクの場合、最終的な答えを判断するだけでなく、多段階の計画、ツール呼び出し、環境フィードバック、エラーからの回復、長期的な状態変化を理解する必要があります。教師コストは急激に上昇します。

さらに重要なのは、もしエージェントが永遠に学習信号の提供を人間に依存し続けるならば、その能力の上限は、人間の経験、ラベリングの規模、そして事前に定義されたタスク境界によって容易に制限されてしまうことです。

したがって、自己進化型エージェントの中核的な動機は次の通りです。

エージェントを、人間の監視をただ受動的に受け入れる状態から、問題を能動的に構築し、環境を探索し、フィードバックを生成し、戦略を修正し、閉ループの中で持続的に向上させる状態へと移行させること。

このサーベイでは、自己進化型エージェントを二つの中核的特徴に要約しています。

最小限の人間の監視による高度な自律性 (Strong autonomy with minimal human supervision)：外部からの人的監視への依存を最小限に抑える。
相互作用を通じた能動的探索 (Active exploration through interaction)：内部推論または外部環境との相互作用を通じて能動的に探索し改善する。

言い換えれば、自己進化エージェントはもはや単なる「訓練されたモデル」ではなく、むしろ自身の成長プロセスに関与できるシステムに近い存在なのです。

2. 統一的分類：三つの自己進化ルート

このサーベイの最も重要な貢献は、統一的な分類法（タクソノミー）を提案し、自己進化型エージェントを三つの大きなパラダイムに分類したことです。

モデル中心の自己進化 (Model-Centric Self-Evolution)
環境中心の自己進化 (Environment-Centric Self-Evolution)
モデル-環境共進化 (Model-Environment Co-Evolution)

図2は、論文全体の中核となる分類フレームワークを示しています。このフレームワークの鍵は、タスクの種類や技術モジュールによって単純に分類するのではなく、「進化がどこで起こるか」に基づいて分野全体を整理している点にあります。

進化が主にモデル内部で起こるならば、それはモデル中心です。
進化が、モデルによる外部知識、経験、ツール、構造の利用から生じるならば、それは環境中心です。
モデルと環境の両方が持続的に変化し、互いをより強くするように駆動し合うならば、それはモデル-環境共進化です。

この視点の重要性は、本来は分散していた研究方向を一つの段階的なフレームワークに統一することにあります。

モデル内部の計算とパラメータ更新によって駆動される能力強化から、環境相互作用とフィードバックによって駆動される経験蓄積へ、そしてモデルと環境が相互に適応し共に進化する段階へ。

図3は、自己進化型エージェントの完全な技術分類をさらに展開し、異なる進化経路の下での手法を体系的に整理することで、内部能力の強化、外部環境との相互作用から、モデル-環境共進化に至るまで、この分野の全体的な技術マップを示しています。これは、現在の自己進化型エージェント研究の全体像を理解するための、いわば技術的な地図として機能します。

3. モデル中心の自己進化：まずモデル自身が強くなる

最初のルートは、モデル中心の自己進化です。

この種の手法の基本的な前提は、モデル内部にはすでに大量の潜在能力が含まれているものの、それが十分に引き出されていないだけだ、というものです。したがって、自己進化はまずモデル自身から出発し、より多くの推論計算、より良い探索戦略、あるいは自己生成した訓練データを通じて能力を向上させることができます。

このルートは、さらに二つのタイプに分けられます。

3.1 推論ベースの進化：推論時の自己進化

この種の手法はモデルパラメータを更新せず、単一の推論プロセス中により多くの計算リソースを投入することで、モデルが「より深く考える」ことを可能にします。代表的な方向性としては、以下が挙げられます。

並列サンプリング (Parallel Sampling)：複数の推論経路を並列にサンプリングし、投票、ランキング、または一貫性判断によって回答を選択する。
逐次自己修正 (Sequential Self-Correction)：生成、反省、修正を繰り返し、複数ラウンドの自己訂正を形成する。
構造化推論 (Structured Reasoning)：推論プロセスを木構造やグラフ構造などに整理する。

その本質は次の通りです。

より多くのテスト時計算量を用いて、より信頼性の高い単一出力を得ること。

しかし、問題点も明らかです。このような改善は通常、一時的なものです。推論が終了した後もモデルパラメータは変わっておらず、能力が真に内面化されることはありません。

3.2 訓練ベースの進化：訓練時の自己進化

対照的に、訓練ベースの進化は、長期的な能力向上を追求します。モデルが自らデータを生成し、フィルタリングし、評価し、SFTやRLを通じて新たな能力をパラメータに書き戻します。

このサーベイでは、これを二つのルートに分けています。

合成駆動型オフライン自己進化 (Synthesis-Driven Offline Self-Evolving)：オフラインで合成データを生成し、それを訓練に使用する。
探索駆動型オンライン自己進化 (Exploration-Driven Online Self-Evolving)：オンラインで探索し、リアルタイムのフィードバックを得て、継続的に戦略を更新する。

図4は両者の違いをよく示しています。オフライン合成手法は「モデルが自分で教材を作る」ようなもので、効率的に開始できますが、初期モデルの能力に制限されやすい傾向があります。一方、オンライン探索手法は「モデルが探索の中で絶えず試行錯誤する」ようなもので、新しい戦略を発見できますが、フィードバックの質、訓練の安定性、探索効率に対する要求がより高くなります。

これこそが、近年 R-Zero、Absolute Zero、Agent0といった研究が注目を集めている理由でもあります。それらは、モデルに既存の知識を復唱させるだけでは飽き足らず、自己対戦、環境フィードバック、またはタスク探索を通じて、モデルが新たな訓練信号を獲得することを試みているのです。

4. 環境中心の自己進化：環境が能力の源泉となる

二番目のルートは、環境中心の自己進化です。

モデル中心の手法が主にモデル内部でどのように強くなるかに焦点を当てているのに対し、環境中心の手法は次のことを強調します。

エージェントの進化は、パラメータの更新だけから生じるのではなく、外部の知識、経験、ツール、記憶、そしてマルチエージェント構造をどのように活用するかからも生じる。

このサーベイでは、環境中心の自己進化を四つの方向性に分類しています。

静的知識の進化 (Static Knowledge Evolution)
動的経験の進化 (Dynamic Experience Evolution)
モジュールアーキテクチャの進化 (Modular Architecture Evolution)
エージェントトポロジーの進化 (Agentic Topology Evolution)

4.1 静的知識の進化：質問に答えることから、能動的に知識を探しに行くことへ

従来のRAGは通常、「ユーザーが質問し、システムが関連文書を検索する」というものでした。しかし、エージェント型RAGやディープリサーチはさらに一歩進んでいます。エージェントは、自分にどのような知識が不足しているかを判断し、能動的にクエリを生成し、ウェブを閲覧し、証拠を収集し、推論を統合し、最終的に構造化されたレポートを生成します。

これは、検索がもはや単なる前置モジュールではなく、エージェントの推論連鎖における能動的な認知行動となったことを意味します。

4.2 動的経験の進化：知識から経験へ

知識が解決するのは「それは何か (what is)」であり、経験が解決するのは「それをどう行うか (how to do)」です。

多くのエージェントタスクで不足しているのは知識ではなく、経験です。

どのツール呼び出し順序がより安定しているか？
どの種類のエラーからどのように回復すべきか？
過去のどの失敗が現在の意思決定を導けるか？
どのワークフローを新しいタスクに再利用できるか？

したがって、動的経験の進化は、過去の軌跡、成功事例、失敗からのフィードバック、実行ログから、再利用可能な経験をどのように抽出するかに焦点を当てています。

図5は、静的知識の進化と動的経験の進化を並べて比較しています。前者は、質疑応答、検索、研究などの知識集約型タスクに適しています。後者は、ロジック集約型、長期計画、複数回の対話、身体化されたタスクにより適しています。なぜなら、これらのタスクは転移可能な行動経験により大きく依存するからです。

4.3 モジュールアーキテクチャの進化：記憶、ツール、インターフェースも進化する

エージェントと環境との相互作用は直接発生するわけではなく、以下のような一連のモジュールを通じて完了します。

記憶モジュール (Memory Module)
ツールモジュール (Tool Module)
対話インターフェース (Interaction Interface)
プロトコル (Protocol)
スキルライブラリ (Skill Library)

これらのモジュール自体もまた進化しうるのです。

例えば、記憶はもはや単なるベクトルデータベースではなく、情報の保持、忘却、統合、書き換え、ルーティングを能動的に決定できるシステムとなり得ます。ツールもまた、事前定義されたAPIだけでなく、エージェントによって自動的に作成、組み合わせ、保守されることが可能になります。対話インターフェースも、モデルにとって理解や操作がしやすいように設計されることで、エージェントの安定性を向上させることができます。

これは、エージェントの能力向上が「モデルがより強くなる」ことだけでなく、「システム構造がモデルの能力発揮により適したものになる」ことでもあることを示しています。

4.4 エージェントトポロジーの進化：マルチエージェント構造自体が進化する

マルチエージェントシステムは、過去にはしばしば、プランナー、エグゼキューター、批評家、レビュアーなどの役割とプロセスを人間が手動で設計することに依存していました。

しかし、複雑なタスクにおいては、固定されたプロセスが常に最適であるとは限りません。そこで、エージェントトポロジーの進化では、マルチエージェントの通信構造、役割分担、チーム規模、協調トポロジーをどのように自動探索したり動的に調整したりするかを研究します。

この種の手法の中核となる問いは次の通りです。

マルチエージェントシステムの組織形態もまた、学習可能で、最適化可能で、進化可能な対象となり得るのか？

5. モデル-環境共進化：未来の鍵となる方向性

三番目のルートであり、このサーベイが最も強調する未来の方向性が、モデル-環境共進化です。

前出の二種類の手法には、それぞれ限界があります。

モデル中心の手法は、外部検証に欠けやすく、誤りの蓄積、自己強化的な幻覚、高分散な軌跡の過大評価といった問題が発生する可能性があります。
環境中心の手法は、外部知識とフィードバックを導入したものの、環境の多くが依然として静的で、単一タスク向けで、拡張不可能な状態にとどまっています。

したがって、より理想的な方向性は次の通りです。

モデルが環境に適応するだけでなく、環境もまたモデルの能力変化に伴って変化していくこと。

図6は、モデル-環境共進化の利点をまとめたものです。環境はエージェントの能力に応じて動的に難易度を調整し、必要に応じて的を絞ったフィードバックを提供し、マルチタスクで検証可能、かつ持続的に成長可能な訓練場へと拡張することができます。

このルートには、二つの中核的な方向性が含まれます。

5.1 マルチエージェントポリシーの共進化

マルチエージェントのシナリオでは、環境そのものが他のエージェントによって構成され得ます。エージェント間の協調、競争、評価、コミュニケーションが、動的な学習の場を形成します。

例えば、複数のエージェントが相互評価を通じてお互いにフィードバックを提供したり、マルチエージェント強化学習を通じて共にポリシーを最適化したりできます。この時、環境は静的な背景ではなく、学習中の他の知的主体によって共に構成されているのです。

5.2 環境訓練

もう一つのルートは、環境を直接訓練または生成することです。

理想的な環境は、以下のようないくつかの特徴を備えているべきです。

検証可能なフィードバックを提供できる。
エージェントの能力に応じて難易度を自動調整できる。
多様なタスクを生成できる。
長期的かつオープンエンドな探索をサポートできる。

Reasoning Gym、AgentGym、Agent-Worldといった研究は、いずれもこの方向に進んでいます。

これもまた、本サーベイの重要な判断の一つです。

未来の自己進化型エージェントの中核的課題は、より強いエージェントを訓練することだけではなく、エージェントと共に成長できる環境を設計することです。

Survey: A Systematic Survey of Self-Evolving Agents: From Model-Centric to Environment-Driven Co-Evolution

GitHub: https://github.com/XMUDeepLIT/Awesome-Self-Evolving-Agents