Agent-World：擴展真實世界環境，讓AI代理與環境協同進化！

隨著 MCP、Agent Skills 與各類 Harness 的快速發展，大型語言模型已能輕鬆調用數百上千種外部工具，但在涉及多工具、具備複雜狀態、需要長程互動的任務上，仍有明顯的不足。儘管有一系列環境擴展方法嘗試複刻真實世界的互動環境（如訂票系統、外送平台），但仍受限於環境擴展的規模與真實性。除此之外，即便建構再多訓練環境，當 AI 代理面臨全新的互動環境時，若缺少持續學習的訓練演算法，仍難以具備良好的泛化能力。

為此，本文提出了一個通用 AI 代理訓練場——Agent-World，它將「AI 代理的環境探索」與「自進化訓練」相結合，形成 AI 代理與環境協同進化的閉環。

Agent-World 由兩個核心模組構成：

（1）智慧環境－任務探索：透過深度研究 AI 代理，圍繞真實世界環境主題，自主從網際網路挖掘環境資料庫、生成可執行工具和可校驗任務。

（2）持續自進化訓練：透過多環境強化學習來訓練 AI 代理，並將合成環境視作天然的訓練場，自動診斷 AI 代理的能力短板，針對性地推動環境與任務的擴展，實現 AI 代理的自進化。

圖 1：Agent-World 總覽。左圖展示 Agent-World AI 代理與環境的協同進化閉環，右圖展示下游效能與環境擴展曲線。

最終，Agent-World 建構了 1978 個環境、19,822 個工具，任務的平均互動回合數超過 15 輪。實驗表明，在23 個具挑戰性的基準上（包含 τ²-Bench、BFCL V4、MCP-Mark、ClawEval、SkillsBench 等），Agent-World-8B/14B 的一致性表現均優於先進的環境擴展方法與強大的開源基礎模型。進一步的實驗分析表明，環境的多樣性、自進化輪次與 AI 代理效能之間，存在著可擴展的關係。

論文標題：
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
論文連結：
https://arxiv.org/pdf/2604.18292
專案首頁：
https://agent-tars-world.github.io/-/

目前 Agent-World 在 X 平台上獲得高度關注，同時榮登 Huggingface Paper 日榜第二名！

Agent-World：擴展世界環境，讓 AI 代理與環境協同進化！

1、智慧環境－任務挖掘：從網路中自動挖掘真實世界環境

傳統的環境合成方法，要麼依賴大型語言模型直接生成，要麼受限於有限的開源工具資料。Agent-World 則選擇了一個有趣的做法：從真實世界的環境主題出發，讓深度研究 AI 代理自主到廣闊的網際網路上挖掘環境。

圖 2：智慧環境－任務挖掘流程，包含整體流程概覽（上）與各步驟的細粒度展示（下）。

（1）智慧資料庫挖掘：Agent-World 選定真實世界的 MCP 伺服器資料、開源工具文件、產業需求文件等作為主題錨點（超過兩千個）；針對每個主題，使用具備搜尋、瀏覽、程式碼編譯器與檔案系統這四種工具的深度研究 AI 代理（Deep Research Agent），從海量網際網路頁面中自主挖掘與主題相關的環境資料庫，並透過迭代式的資料複雜化來提升資料庫的規模與結構真實性。

（2）工具介面生成與校驗：Agent-World 進一步引入程式碼 AI 代理，為每個環境生成工具介面與單元測試腳本，並透過「可編譯性、測試準確率、環境最小有效性」這三重規則進行過濾，最終得到一系列包含真實資料庫與可執行工具集的互動環境。

（3）層次化環境分類體系：為了支撐跨環境的任務合成與分層評測，這項研究進一步對海量環境生態進行體系建構，透過主題聚類並結合大型語言模型與人工校驗，Agent-World 將環境生態劃分為 20/50/1978 的三層級環境標籤分類體系（如下圖所示）。

圖 3：Agent-World 的層次環境分類。左圖展示 20 個一級環境，右圖展示 Top-10 二級環境對應的三級環境數量。

（4）可驗證任務合成：基於高品質的環境生態，Agent-World 採用了兩種互補的可驗證任務合成策略：

• 基於圖的任務合成：為環境中的工具構建一個完全連通的依賴圖，透過隨機遊走生成合理的工具調用序列，隨後「由鏈反推」自然語言問題，並搭配大型語言模型評分指標 Rubric。這種方法擅長建模順序相依的邏輯。

• 程序化任務合成：直接讓大型語言模型生成一個需要複雜控制流程的 Python 腳本來解決某個問題，並反向生成對應的問題，以及可執行的驗證程式碼。這種方法能捕捉非線性的複雜推理。

（5）合成環境的統計分析：下圖給出了環境與任務分佈的詳盡統計。經過多道過濾後，Agent-World 最終沉澱出 1,978 個環境、19,822 個工具，單一環境的平均工具數超過 10 個，體量可觀且粒度均衡；環境資料庫橫跨 JSON、CSV、SQL、HTML、TeX、YAML 等多種檔案格式，在結構與語義上均呈現高度異質性。

合成任務則以「長程多輪」為主，平均互動回合數超過 15 輪，對規劃、記憶與錯誤恢復構成持續壓力。在難度方面，即便是豆包-Seed 2.0，在 Pass@10 的設定下，仍有相當比例的任務無法正確完成，反映出整體任務極具挑戰性。

綜上所述，靜態統計從規模、格式、互動長度、難度四個維度，共同驗證了 Agent-World 合成互動環境在多樣性、異質性與複雜性上的顯著優勢。

圖 4：Agent-World 合成環境與任務的六維統計分析。

2、持續自進化 AI 代理訓練：讓 AI 代理與環境協同進化

在構建可擴展、真實的環境生態系統後，Agent-World 將其轉化為一個動態的 AI 代理訓練場（如下圖）。

圖 5：持續自進化 AI 代理訓練框架。上方是多環境強化訓練，下方是診斷與協同進化循環。

（1）多環境強化學習：與傳統的 Agent RL 不同，我們的訓練在「AI 代理－工具－資料庫」的閉環互動中展開。AI 代理在不同環境中進行 Rollout，調用工具的同時也會改寫底層資料庫的狀態，使學習信號真正根植於可執行的世界環境。在演算法上，Agent-World 採用被廣泛使用的 GRPO 來最大化上述可驗證的獎勵，穩定提升 AI 代理的效能。

獎勵機制亦按任務類型分化：基於圖合成的任務由大型語言模型依照校驗 rubric 評分細則逐項打分；程序式任務則直接執行驗證腳本，根據最終答案或狀態的正確性來給分。

（2）自進化 AI 代理競技場：Agent-World 的核心，在於把整個環境生態視作天然的 AI 代理訓練競技場。訓練並非一蹴可幾，而是一個多輪迭代的自進化過程：

動態評測任務合成：每輪訓練結束後，從競技場的環境池中依照環境分類體系，均衡採樣一批新環境，並為其合成全新的評估任務，避免「考過的題目再重考一遍」。

AI 代理化診斷：讓當前輪次的 AI 代理在這批新任務上執行評估；診斷 AI 代理隨後分析其失敗軌跡、錯誤分佈與環境元資訊，定位能力短板（例如「Notion 環境下的二級標題建立出錯」），輸出弱點環境排序與針對性任務生成指南。

AI 代理－環境協同進化：依據診斷結果，在弱點環境上合成更具挑戰性的訓練任務，並按需進一步複雜化對應的環境資料庫；再用這批「薄弱能力客製化資料」來驅動下一輪的持續強化學習。

以上流程形成了一個有趣的訓練飛輪：「訓練提升 AI 代理 → 評估暴露弱點 → 診斷指引環境/任務擴展 → 新資料驅動 AI 代理進一步進化」。這個閉環讓 AI 代理與其訓練環境實現了真正的「協同進化」。

實驗結果：23 個基準驗證 Agent-World 的跨域 AI 代理能力

實驗設定：為充分評估泛化能力，Agent-World 的評測涵蓋 5 大類領域，共覆蓋 23 個評測基準：

• AI 代理工具使用：

MCP-Mark, BFCL V4, τ²-Bench

• 前沿 AI 助手：

SkillsBench, ARC-AGI-2, ClawEval

• 通用推理：

MATH500, GSM8K, MATH, AIME24/25, KOR-Bench, OlympiadBench 等

• 深度搜尋與軟體工程：

WebWalkerQA, SWE-Bench, Terminal-Bench, GAIA, HLE 等

• 知識與 MCP：

MMLU, SuperGPQA, MCP-Universe 等

對比基準包含前沿閉源模型（GPT-5.2 High, Claude Sonnet-4.5，Seed2.0 等）、強開源基礎模型（DeepSeek-V3.2-685B, Qwen3-235B-A22B）以及先進的環境擴展方法（EnvScaler，AWM，ScaleEnv）。

1. 在核心 AI 代理任務上表現卓越

表 1：在核心 AI 代理工具使用基準上的結果。

如上表所示，在當前最具挑戰性的三大 AI 代理工具使用基準——MCP-Mark、BFCL V4、τ²-Bench 上，Agent-World-8B 與 14B 穩定超越所有開源環境擴展基準。這三套基準分別考察多輪有狀態互動、跨域工具調用與長程對話，連閉源前沿模型在 MCP-Mark 上也僅停留在 50 分位左右。

更有意思的是，Agent-World-14B 在 BFCL V4 上取得了 55.8% 的成績，反超了擁有 685B 參數的 DeepSeek-V3.2-685B（54.1%），這也表明更真實的可執行環境與可驗證的獎勵，比參數更能對齊複雜的 AI 代理互動模式。

2. 長程 AI 代理推理能力顯著

圖 6：Agent-World-8B 在通用推理、AI 代理搜尋與編碼、知識與 MCP 三大能力組上的泛化表現雷達圖，全面領先基準。

如上圖所示，當我們將評測擴展到 17 個涵蓋長程推理、深度搜尋、軟體工程與知識應用的基準時，Agent-World-8B 依然在所有維度上保持領先：通用推理（MATH500, AIME, OlympiadBench 等）並未因為 AI 代理相關訓練而退化，甚至略有漲幅；在深度搜尋、軟體工程領域（GAIA, SWE-Bench, Terminal-Bench 等）這類超長輪次的任務上，優勢極其明顯。

此外，在其他知識類與 MCP 基準的表現同樣十分優秀，這證明了 Agent-World 透過環境訓練所獲得的技能是可遷移、可組合的，而非針對特定基準的過度擬合。

圖 7：Agent-World 系列模型在 SkillsBench、ARC-AGI-2、ClawEval 等前沿 AI 助手基準上展現優異效能。

3. 在進階 AI 助手場景中顯著提升

如上圖所示，Agent-World 在 SkillsBench、ARC-AGI-2 和 ClawEval 這三個要求長程規劃和真實世界執行的最新基準上同樣表現出色，且從 8B 到 14B 的規模提升穩定，而其他的基準模型則出現了能力波動。

定量分析：環境規模與自進化如何驅動效能？

除了主要的實驗結果，Agent-World 還進行了一系列有趣的定量分析。

1、訓練環境規模擴展分析

圖 8：下游 AI 代理效能隨著訓練環境數量的增加而顯著提升，呈現明確的縮放規律。

隨著逐步增加訓練環境的數量（從 0 到近 2000 個），AI 代理的效能與環境數量呈現明顯的正相關。在初期（10 到 100 個環境），效能提升迅猛，說明覆蓋關鍵互動模式至關重要；後期提升放緩但持續，表明更大規模的環境帶來了更細緻的能力提升。

2、自進化輪次分析

表 2：持續自主進化的效果。

研究驗證了自進化競技場閉環的有效性。無論是 Agent-World 模型自身，還是基準模型 EnvScaler-8B，在經過兩輪「評估－診斷－針對性訓練」的循環後，表現一致地在多個基準上獲得效能增益。這證明將環境作為訓練場，針對性地驅動資料合成，是持續提升 AI 代理環境泛化能力的有效機制。

3、多環境強化學習曲線分析

圖 8：多環境 AI 代理強化學習曲線展示。

Agent-World 雖然在複雜、混合的環境與多樣化的合成任務（基於工具圖與程序化）上進行強化學習，但其獎勵分數隨步數穩步上升，而策略熵保持相對穩定甚至增長。這表明 AI 代理在適應新環境的同時，保持了良好的探索性，沒有過早地陷入局部最優的「固化」行為。

總結與展望

Agent-World 希望透過擴展真實世界環境，實現 AI 代理與環境的持續協同進化。作為本文的作者，我們也想提出幾點在推動這項研究中發現的啟示，供研究通用 AI 代理訓練方向的朋友們參考與共同探索：

真實性是環境擴展的基石：構建高度真實、邏輯可校驗的環境，是訓練通用 AI 代理的前提。Agent-World 以 AI 代理化流水線對接真實世界主題與海量網路資訊，自動挖掘資料與工具；我們相信這只是起點，未來會有更自動、更貼近真實世界複刻的環境合成範式湧現。

進化是環境訓練的動力：規模化環境生態一旦建成，單次靜態訓練既不夠，也浪費了高成本建構的環境。Agent-World 構建了可自動診斷弱點、定向生成挑戰的閉環系統，讓 AI 代理與環境協同進化。如何將環境生態與訓練演算法深度耦合，仍是一條漫長但值得持續押注的路。

環境/任務的可擴展性通往泛化性：我們在 Agent-World 中觀察到「環境規模、自演化輪次、任務難度」與 AI 代理效能之間清晰的 scaling 關係。這提示未來應同步擴展「更多樣的環境、更複雜的任務、更多輪的進化」——這或許正是通往通用 AI 代理互動能力的一把鑰匙。

作者簡介：本文第一作者是董冠霆，中國人民大學高瓴人工智慧學院博士二年級，導師為竇志成教授和文繼榮教授。他的主要研究方向為通用 AI 代理訓練。以第一/共同第一作者身份在 ICLR、ACL 等國際頂級會議發表論文 10 餘篇；代表工作包括 ARPO, AUTOIF, Search-o1, Webthinker, FlashRAG 等。谷歌學術引用量 1 萬餘次，個人 GitHub 專案星標 8000 餘枚，並在字節跳動 Seed、阿里巴巴通義千問等基座大模型團隊實習。曾獲首屆騰訊青雲獎學金，國家獎學金、北京市優秀畢業生等榮譽。本文的通訊作者為中國人民大學的竇志成教授與字節跳動 Seed 的鍾宛君。

轉載請聯繫本公眾號獲得授權

投稿或尋求報導：liyazhou@jiqizhixin.com

Agent-World：擴展真實世界環境，讓AI代理與環境協同進化！

相關文章推薦

分享網址