Agent-World：実世界環境を拡張し、エージェントと環境の共進化を実現！

MCP、Agent Skills、各種Harnessの急速な発展に伴い、大規模言語モデルは数千種類もの外部ツールを容易に呼び出せるようになりました。しかし、複数ツールが関与し、複雑な状態や長期的なインタラクションを伴うタスクには、依然として明確な弱点があります。一連の環境拡張手法が実世界のインタラクション環境（例：予約システム、フードデリバリープラットフォーム）を再現しようと試みているものの、環境拡張の規模とリアリティによって制限されています。さらに、訓練環境をどれだけ多く構築しても、エージェントが新たなインタラクション環境に直面した場合、継続的な学習を可能にする訓練アルゴリズムがなければ、汎化性能を備えることは依然として困難です。

そこで、本稿では「Agent-World」を提案します。これは、汎用エージェント訓練場であり、「エージェントによる環境探索」と「自己進化型訓練」を組み合わせることで、エージェントと環境の共進化という閉ループを形成します。

Agent-Worldは、以下の二つのコアモジュールで構成されています。

（1）インテリジェントな環境-タスク探索：深度リサーチエージェントを用いて、実世界の環境テーマを中心に、インターネットから自律的に環境データベースを発掘し、実行可能なツールと検証可能なタスクを生成します。

（2）継続的自己進化訓練：複数環境での強化学習を通じてエージェントを訓練し、合成環境を天然の訓練場と見なします。エージェントの能力の弱点を自動診断し、それに応じて環境やタスクの拡張を推進することで、エージェントの自己進化を実現します。

Agent-Worldの概要図

図1：Agent-Worldの概要。左図はAgent-Worldにおけるエージェントと環境の共進化の閉ループを示し、右図は下流タスクの性能と環境拡張の曲線を示しています。

最終的に、Agent-Worldは1978の環境、19,822のツールを構築し、タスクあたりの平均インタラクション回数は15ターンを超えます。実験によると、23の挑戦的なベンチマーク（τ²-Bench、BFCL V4、MCP-Mark、ClawEval、SkillsBenchなど）において、Agent-World-8B/14Bは、先進的な環境拡張手法や強力なオープンソース基盤モデルを一貫して上回りました。さらなる実験分析では、環境の多様性、自己進化のラウンド数、エージェントの性能との間にスケーラブルな関係があることが示されました。

実験結果のグラフ

さらなる実験結果のグラフ

論文タイトル：
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
論文リンク：
https://arxiv.org/pdf/2604.18292
プロジェクトページ：
https://agent-tars-world.github.io/-/

現在、Agent-WorldはX（旧Twitter）で大きな注目を集めており、Huggingface Paperの日間ランキングで2位に輝きました！

Agent-World：世界環境を拡張し、エージェントと環境を共進化させる！

1. インテリジェントな環境-タスクマイニング：ウェブから実世界の環境を自動発掘

従来の環境合成手法は、LLMによる直接生成に依存するか、限られたオープンソースのツールデータに制限されていました。Agent-Worldは興味深いアプローチを採用しています。それは、実世界の環境テーマから出発し、深度リサーチエージェント自身が広大なインターネット上で環境を自律的に発掘するというものです。

環境タスクマイニングのフロー図

図2：インテリジェントな環境-タスクマイニングフロー。全体フローの概要（上）と各ステップの詳細な表示（下）を含みます。

（1）インテリジェントなデータベースマイニング：Agent-Worldは、実在するMCPサーバーデータ、オープンソースツールのドキュメント、業界要件文書などをテーマアンカー（2000件以上）として選択します。各テーマに対し、検索、ブラウジング、コードコンパイラ、ファイルシステムの4つのツールを備えた深度リサーチエージェント（Deep Research Agent）を活用し、膨大なインターネットのウェブページからテーマ関連の環境データベースを自律的に発掘します。そして、反復的なデータ複雑化によってデータベースの規模と構造のリアリティを高めます。

データベースマイニングの図

（2）ツールインターフェースの生成と検証：Agent-Worldはさらにコードエージェントを導入し、各環境に対してツールインターフェースと単体テストスクリプトを生成します。「コンパイル可能性、テスト正解率、環境最小有効性」という3つのルールでフィルタリングし、最終的に実データベースと実行可能なツールセットを含む一連のインタラクション環境を得ます。

ツール生成と検証の図

（3）階層的環境分類体系：環境横断的なタスク合成と階層的な評価をサポートするため、この研究ではさらに膨大な環境エコシステムの体系化を進めました。トピッククラスタリングと大規模言語モデルおよび人手による検証を組み合わせることで、Agent-Worldは環境エコシステムを20 / 50 / 1978という3層の環境ラベル分類体系に分割しました（下図参照）。

階層的環境分類の図

図3：Agent-Worldの階層的環境分類。左図は20の一次環境を、右図は上位10の二次環境とそれに対応する三次環境の数を示しています。

（4）検証可能なタスク合成：高品質な環境エコシステムに基づき、Agent-Worldは2つの補完的な検証可能タスク合成戦略を採用しています。

• グラフベースのタスク合成：環境内のツールに対して完全接続の依存関係グラフを構築し、ランダムウォークによって妥当なツール呼び出しシーケンスを生成します。その後、「チェーンから逆算して」自然言語の質問を生成し、大規模言語モデルによる評価基準（Rubric）を付与します。この手法は、逐次的な依存関係のロジックをモデル化するのに長けています。

• プログラム的なタスク合成：LLMに、複雑な制御フローを必要とするPythonスクリプトを直接生成させ、ある問題を解決させます。そのスクリプトから逆に問題文と実行可能な検証コードを生成します。この手法は、非線形で複雑な推論を捉えることができます。

（5）合成環境の統計分析：下図は、環境とタスク分布の詳細な統計を示しています。複数段階のフィルタリングを経て、Agent-Worldは最終的に1,978の環境、19,822のツールを生成しました。環境あたりの平均ツール数は10を超え、ボリュームは十分であり、粒度も均衡が取れています。環境データベースはJSON、CSV、SQL、HTML、TeX、YAMLなど多様なファイル形式にわたり、構造的にも意味的にも高度な異質性を示しています。

合成タスクは「長期的で多ターン」なものが中心で、平均インタラクションターン数は15を超え、計画、記憶、エラー回復に対して継続的な負荷をかけます。難易度に関しては、最先端モデルであるDoubao-Seed 2.0でさえ、Pass@10の設定下で、かなりの割合のタスクを正しく完了できず、全体的なタスクの非常に高い挑戦性を反映しています。

以上の静的な統計は、規模、フォーマット、インタラクションの長さ、難易度という4つの次元から、Agent-Worldの合成インタラクション環境が多様性、異質性、複雑性において顕著な優位性を持つことを共同で検証しています。

環境とタスクの6次元統計分析図

図4：Agent-Worldの合成環境とタスクの6次元統計分析。

2. 継続的自己進化エージェント訓練：エージェントと環境を共進化させる

スケーラブルでリアルな環境エコシステムを構築した後、Agent-Worldはそれを動的なエージェント訓練場へと変換します（下図参照）。

継続的自己進化訓練フレームワーク図

図5：継続的自己進化エージェント訓練フレームワーク。上部は複数環境強化学習、下部は診断と共進化のサイクルです。

（1）複数環境強化学習：従来のAgent RLとは異なり、我々の訓練は「エージェント – ツール – データベース」という閉ループインタラクションの中で展開されます。エージェントは異なる環境でロールアウト（Rollout）を実行し、ツールを呼び出すと同時に、基盤となるデータベースの状態も書き換えます。これにより、学習信号は真に実行可能な世界環境に根差したものとなります。アルゴリズムとしては、Agent-Worldは広く使用されているGRPOを採用し、上記の検証可能な報酬を最大化することで、エージェントの性能を安定的に向上させます。

複数環境強化学習の図

報酬もタスクタイプに応じて分化します。グラフ合成に基づくタスクは、大規模言語モデルが検証用ルーブリックの評価基準に従って項目ごとに採点します。プログラム的なタスクは、検証スクリプトを直接実行し、最終的な回答や状態の正誤に基づいて得点を与えます。

報酬設計の図

（2）自己進化エージェントアリーナ：Agent-Worldの核心は、環境エコシステム全体を天然のエージェント訓練アリーナと見なす点にあります。訓練は一度きりではなく、複数ラウンドの反復による自己進化プロセスです。

動的評価タスク合成：各訓練ラウンド終了後、アリーナの環境プールから環境分類体系に従って均等に新しい環境をサンプリングし、それらに対して全く新しい評価タスクを合成します。これにより、「解いた問題をもう一度テストする」ことを回避します。

エージェントによる診断：現在のラウンドのエージェントをこれらの新しいタスクで評価します。その後、診断エージェントが失敗の軌跡、エラー分布、環境メタ情報を分析し、能力の弱点を特定します（例：「Notion環境での見出し2作成エラー」）。そして、弱点環境のランキングとターゲットを絞ったタスク生成のガイドラインを出力します。

エージェント – 環境共進化：診断結果に基づき、弱点環境上でより挑戦的な訓練タスクを合成し、必要に応じて対応する環境データベースをさらに複雑化します。そして、この「弱点能力に特化したカスタマイズデータ」を用いて、次のラウンドの継続的強化学習を駆動します。

以上のフローは、興味深い訓練フライホイールを形成します。「訓練によるエージェント向上 → 評価による弱点の露呈 → 診断による環境/タスク拡張の指針 → 新しいデータによるエージェントの更なる進化」という流れです。この閉ループにより、エージェントとその訓練環境は真の「共進化」を実現します。

共進化フライホイールの図

実験結果：23のベンチマークでAgent-Worldのクロスドメインエージェント能力を検証

実験設定：汎化性能を十分に評価するため、Agent-Worldは5つの大カテゴリ、計23の評価ベンチマークで評価されました。

• エージェントツール使用： MCP-Mark, BFCL V4, τ²-Bench

• 最先端AIアシスタント： SkillsBench, ARC-AGI-2, ClawEval

• 汎用推論： MATH500, GSM8K, MATH, AIME24/25, KOR-Bench, OlympiadBench など

• 深度検索とソフトウェアエンジニアリング： WebWalkerQA, SWE-Bench, Terminal-Bench, GAIA, HLE など

• 知識とMCP： MMLU, SuperGPQA, MCP-Universe など

比較ベースラインには、最先端のクローズドモデル（GPT-5.2 High, Claude Sonnet-4.5, Seed2.0など）、強力なオープンソース基盤モデル（DeepSeek-V3.2-685B, Qwen3-235B-A22B）、および先進的な環境拡張手法（EnvScaler, AWM, ScaleEnv）が含まれます。

1. コアエージェントタスクで卓越した性能

コアエージェントタスクの結果表

表1：コアエージェントツール使用ベンチマークでの結果。

上表が示すように、現在最も挑戦的な3大エージェントツール使用ベンチマークであるMCP-Mark、BFCL V4、τ²-Benchにおいて、Agent-World-8Bと14Bは、すべてのオープンソース環境拡張ベースラインを安定的に上回りました。これら3つのベンチマークは、複数ターンのステートフルなインタラクション、クロスドメインのツール呼び出し、長期的な会話をそれぞれ評価するものです。クローズドモデルでさえ、MCP-Markでは50前後のスコアに留まっています。

さらに興味深いことに、Agent-World-14BはBFCL V4で55.8%を達成し、685BパラメータのDeepSeek-V3.2-685B（54.1%）を上回りました。これは、よりリアルな実行可能環境と検証可能な報酬が、パラメータ数よりも複雑なエージェントインタラクションパターンへのアライメントに有効であることを示唆しています。

2. 長期的なエージェント推論能力が顕著

汎化性能のレーダーチャート

図6：Agent-World-8Bの、汎用推論、エージェント検索とコーディング、知識とMCPという3つの能力グループにおける汎化性能を示すレーダーチャート。すべての項目でベースラインを包括的にリードしています。

上図が示すように、評価を長期的な推論、深度検索、ソフトウェアエンジニアリング、知識応用をカバーする17のベンチマークに拡張しても、Agent-World-8Bはすべての次元でリードを維持しました。汎用推論（MATH500, AIME, OlympiadBenchなど）は、エージェント関連の訓練によって退化することなく、むしろわずかに向上しました。深度検索やソフトウェアエンジニアリング分野（GAIA, SWE-Bench, Terminal-Benchなど）のような超長ターンタスクでは、その優位性が極めて明確です。

さらに、他の知識系やMCPベンチマークでも同様に非常に優れたパフォーマンスを示しており、Agent-Worldが環境訓練を通じて獲得したスキルが、特定のベンチマークへの過学習ではなく、転移可能で組み合わせ可能なものであることを証明しています。

AIアシスタントベンチマークの結果

図7：Agent-Worldシリーズモデルが、SkillsBench、ARC-AGI-2、ClawEvalなどの最先端AIアシスタントベンチマークで優れた性能を発揮している様子。

3. 先進的なAIアシスタントシナリオで顕著な向上

上図が示す通り、Agent-Worldは、長期的な計画と実世界での実行が求められる最新のベンチマークであるSkillsBench、ARC-AGI-2、ClawEvalでも優れた性能を示しました。また、8Bから14Bへのモデル規模の拡大に伴い性能が安定的に向上している一方で、他のベースラインモデルでは能力の変動が見られました。

定量分析：環境規模と自己進化はいかにして性能を駆動するのか？

主な実験結果に加えて、Agent-Worldは一連の興味深い定量分析も実施しました。

1. 訓練環境規模のスケーリング分析

訓練環境規模のスケーリング分析図

図8：下流タスクのエージェント性能は、訓練環境の数が増加するにつれて顕著に向上し、明確なスケーリング則を示しています。

訓練環境の数を段階的に増やす（0から約2000まで）につれて、エージェントの性能と環境数との間には明確な正の相関が見られました。初期段階（10から100環境）では性能が急速に向上しており、主要なインタラクションパターンをカバーすることの重要性を示しています。後期には向上は緩やかになりますが持続しており、より大規模な環境がよりきめ細かい能力向上をもたらすことを示しています。

2. 自己進化ラウンド分析

自己進化ラウンド分析の表

表2：継続的自律進化の効果。

研究では、自己進化アリーナの閉ループの有効性が検証されました。Agent-Worldモデル自身であれ、ベースラインモデルのEnvScaler-8Bであれ、「評価 → 診断 → ターゲット訓練」という2ラウンドのサイクルを経ることで、複数のベンチマークにおいて一貫して性能が向上しました。これは、環境を訓練場として捉え、ターゲットを絞ったデータ合成を駆動することが、エージェントの環境汎化能力を継続的に向上させるための効果的なメカニズムであることを証明しています。

3. 複数環境強化学習の学習曲線分析

複数環境強化学習の学習曲線

図8：複数環境エージェント強化学習の学習曲線を示す図。

Agent-Worldは、複雑で混在した環境と多様な合成タスク（ツールグラフベースおよびプログラム的タスク）で強化学習を行っていますが、報酬スコアはステップを追うごとに着実に上昇し、方策のエントロピーは比較的安定しているか、むしろ増加傾向にあります。これは、エージェントが新しい環境に適応しながらも、良好な探索性を維持しており、局所最適な「固定化された」行動に早期に陥っていないことを示しています。

まとめと展望

Agent-Worldは、実世界環境を拡張することで、エージェントと環境の継続的な共進化を実現することを目指しています。筆者らとしても、この研究を進める中で得られたいくつかの洞察を、汎用エージェント訓練の方向性を研究する方々の参考と共同探求のために提示したいと思います。

リアリティは環境拡張の基盤である：高度にリアルで論理的に検証可能な環境を構築することが、汎用エージェントを訓練するための前提条件です。Agent-Worldは、エージェント化されたパイプラインを通じて実テーマと膨大なウェブ情報を接続し、データとツールを自動的に発掘します。これは出発点に過ぎず、将来的にはより自動化され、より実世界の複製に近い環境合成パラダイムが出現すると信じています。

進化は環境訓練の原動力である：大規模な環境エコシステムが一旦構築されれば、単発の静的な訓練では不十分であり、高いコストをかけて構築した環境の浪費にもなります。Agent-Worldは、弱点を自動診断し、挑戦的な課題をターゲット生成する閉ループシステムを構築し、エージェントと環境の共進化を実現しました。環境エコシステムと訓練アルゴリズムをどのように深く結合させるかは、依然として長い道のりであり、注力し続ける価値のある道です。

環境/タスクのスケーラビリティは汎化性に通じる：我々はAgent-Worldにおいて、「環境規模、自己進化ラウンド、タスク難易度」とエージェント性能との間に明確なスケーリング（scaling）関係があることを観測しました。これは、「より多様な環境、より複雑なタスク、より多くの進化ラウンド」を同期的に拡張していくことこそが、汎用エージェントインタラクション能力への鍵の一つである可能性を示唆しています。

著者紹介：本論文の筆頭著者は董冠霆（ドン・グァンティン）です。中国人民大学高瓴人工知能学院の博士課程2年に在籍し、指導教員は窦志成（ドウ・ジーチョン）教授と文継栄（ウェン・ジーロン）教授です。彼の主な研究方向は汎用エージェント訓練です。筆頭/共同筆頭著者として、ICLR、ACLなどの国際トップ会議で10本以上の論文を発表しています。代表的な業績には、ARPO、AUTOIF、Search-o1、Webthinker、FlashRAGなどがあります。Google Scholarの引用数は1万回を超え、個人のGitHubプロジェクトのスター数は8000以上です。ByteDance SeedやAlibaba Tongyi Qianwenなどの基盤大規模モデルチームでのインターン経験があります。第1回Tencent Qingyun奨学金、国家奨学金、北京市優秀卒業生などの栄誉を受けています。本論文の責任著者は、中国人民大学の窦志成教授とByteDance Seedの鍾宛君（ジョン・ワンジュン）です。

転載に関する注意書き

転載する場合は、本公式アカウントから許可を得てください。

投稿または取材依頼：liyazhou@jiqizhixin.com

Agent-World：実世界環境を拡張し、エージェントと環境の共進化を実現！

関連記事

分享網址