隨著 MCP、Agent Skills 與各類 Harness 的快速發展,大型語言模型已能輕鬆調用數百上千種外部工具,但在涉及多工具、具備複雜狀態、需要長程互動的任務上,仍有明顯的不足。儘管有一系列環境擴展方法嘗試複刻真實世界的互動環境(如訂票系統、外送平台),但仍受限於環境擴展的規模與真實性。除此之外,即便建構再多訓練環境,當 AI 代理面臨全新的互動環境時,若缺少持續學習的訓練演算法,仍難以具備良好的泛化能力。
為此,本文提出了一個通用 AI 代理訓練場——Agent-World,它將「AI 代理的環境探索」與「自進化訓練」相結合,形成 AI 代理與環境協同進化的閉環。
Agent-World 由兩個核心模組構成:
(1)智慧環境-任務探索:透過深度研究 AI 代理,圍繞真實世界環境主題,自主從網際網路挖掘環境資料庫、生成可執行工具和可校驗任務。
(2)持續自進化訓練:透過多環境強化學習來訓練 AI 代理,並將合成環境視作天然的訓練場,自動診斷 AI 代理的能力短板,針對性地推動環境與任務的擴展,實現 AI 代理的自進化。
圖 1:Agent-World 總覽。左圖展示 Agent-World AI 代理與環境的協同進化閉環,右圖展示下游效能與環境擴展曲線。
最終,Agent-World 建構了 1978 個環境、19,822 個工具,任務的平均互動回合數超過 15 輪。實驗表明,在23 個具挑戰性的基準上(包含 τ²-Bench、BFCL V4、MCP-Mark、ClawEval、SkillsBench 等),Agent-World-8B/14B 的一致性表現均優於先進的環境擴展方法與強大的開源基礎模型。進一步的實驗分析表明,環境的多樣性、自進化輪次與 AI 代理效能之間,存在著可擴展的關係。
論文標題:
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
論文連結:
專案首頁:
目前 Agent-World 在 X 平台上獲得高度關注,同時榮登 Huggingface Paper 日榜第二名!
Agent-World:擴展世界環境,讓 AI 代理與環境協同進化!
1、智慧環境-任務挖掘:從網路中自動挖掘真實世界環境
傳統的環境合成方法,要麼依賴大型語言模型直接生成,要麼受限於有限的開源工具資料。Agent-World 則選擇了一個有趣的做法:從真實世界的環境主題出發,讓深度研究 AI 代理自主到廣闊的網際網路上挖掘環境。
圖 2:智慧環境-任務挖掘流程,包含整體流程概覽(上)與各步驟的細粒度展示(下)。
(1)智慧資料庫挖掘:Agent-World 選定真實世界的 MCP 伺服器資料、開源工具文件、產業需求文件等作為主題錨點(超過兩千個);針對每個主題,使用具備搜尋、瀏覽、程式碼編譯器與檔案系統這四種工具的深度研究 AI 代理(Deep Research Agent),從海量網際網路頁面中自主挖掘與主題相關的環境資料庫,並透過迭代式的資料複雜化來提升資料庫的規模與結構真實性。
(2)工具介面生成與校驗:Agent-World 進一步引入程式碼 AI 代理,為每個環境生成工具介面與單元測試腳本,並透過「可編譯性、測試準確率、環境最小有效性」這三重規則進行過濾,最終得到一系列包含真實資料庫與可執行工具集的互動環境。
(3)層次化環境分類體系:為了支撐跨環境的任務合成與分層評測,這項研究進一步對海量環境生態進行體系建構,透過主題聚類並結合大型語言模型與人工校驗,Agent-World 將環境生態劃分為 20/50/1978 的三層級環境標籤分類體系(如下圖所示)。
圖 3:Agent-World 的層次環境分類。左圖展示 20 個一級環境,右圖展示 Top-10 二級環境對應的三級環境數量。
(4)可驗證任務合成:基於高品質的環境生態,Agent-World 採用了兩種互補的可驗證任務合成策略:
• 基於圖的任務合成:為環境中的工具構建一個完全連通的依賴圖,透過隨機遊走生成合理的工具調用序列,隨後「由鏈反推」自然語言問題,並搭配大型語言模型評分指標 Rubric。這種方法擅長建模順序相依的邏輯。
• 程序化任務合成:直接讓大型語言模型生成一個需要複雜控制流程的 Python 腳本來解決某個問題,並反向生成對應的問題,以及可執行的驗證程式碼。這種方法能捕捉非線性的複雜推理。
(5)合成環境的統計分析:下圖給出了環境與任務分佈的詳盡統計。經過多道過濾後,Agent-World 最終沉澱出 1,978 個環境、19,822 個工具,單一環境的平均工具數超過 10 個,體量可觀且粒度均衡;環境資料庫橫跨 JSON、CSV、SQL、HTML、TeX、YAML 等多種檔案格式,在結構與語義上均呈現高度異質性。
合成任務則以「長程多輪」為主,平均互動回合數超過 15 輪,對規劃、記憶與錯誤恢復構成持續壓力。在難度方面,即便是豆包-Seed 2.0,在 Pass@10 的設定下,仍有相當比例的任務無法正確完成,反映出整體任務極具挑戰性。
綜上所述,靜態統計從規模、格式、互動長度、難度四個維度,共同驗證了 Agent-World 合成互動環境在多樣性、異質性與複雜性上的顯著優勢。
圖 4:Agent-World 合成環境與任務的六維統計分析。
2、持續自進化 AI 代理訓練:讓 AI 代理與環境協同進化
在構建可擴展、真實的環境生態系統後,Agent-World 將其轉化為一個動態的 AI 代理訓練場(如下圖)。
圖 5:持續自進化 AI 代理訓練框架。上方是多環境強化訓練,下方是診斷與協同進化循環。
(1)多環境強化學習:與傳統的 Agent RL 不同,我們的訓練在「AI 代理-工具-資料庫」的閉環互動中展開。AI 代理在不同環境中進行 Rollout,調用工具的同時也會改寫底層資料庫的狀態,使學習信號真正根植於可執行的世界環境。在演算法上,Agent-World 採用被廣泛使用的 GRPO 來最大化上述可驗證的獎勵,穩定提升 AI 代理的效能。
獎勵機制亦按任務類型分化:基於圖合成的任務由大型語言模型依照校驗 rubric 評分細則逐項打分;程序式任務則直接執行驗證腳本,根據最終答案或狀態的正確性來給分。
(2)自進化 AI 代理競技場:Agent-World 的核心,在於把整個環境生態視作天然的 AI 代理訓練競技場。訓練並非一蹴可幾,而是一個多輪迭代的自進化過程:
動態評測任務合成:每輪訓練結束後,從競技場的環境池中依照環境分類體系,均衡採樣一批新環境,並為其合成全新的評估任務,避免「考過的題目再重考一遍」。
AI 代理化診斷:讓當前輪次的 AI 代理在這批新任務上執行評估;診斷 AI 代理隨後分析其失敗軌跡、錯誤分佈與環境元資訊,定位能力短板(例如「Notion 環境下的二級標題建立出錯」),輸出弱點環境排序與針對性任務生成指南。
AI 代理-環境協同進化:依據診斷結果,在弱點環境上合成更具挑戰性的訓練任務,並按需進一步複雜化對應的環境資料庫;再用這批「薄弱能力客製化資料」來驅動下一輪的持續強化學習。
以上流程形成了一個有趣的訓練飛輪:「訓練提升 AI 代理 → 評估暴露弱點 → 診斷指引環境/任務擴展 → 新資料驅動 AI 代理進一步進化」。這個閉環讓 AI 代理與其訓練環境實現了真正的「協同進化」。
實驗結果:23 個基準驗證 Agent-World 的跨域 AI 代理能力
實驗設定:為充分評估泛化能力,Agent-World 的評測涵蓋 5 大類領域,共覆蓋 23 個評測基準:
• AI 代理工具使用:
MCP-Mark, BFCL V4, τ²-Bench
• 前沿 AI 助手:
SkillsBench, ARC-AGI-2, ClawEval
• 通用推理:
MATH500, GSM8K, MATH, AIME24/25, KOR-Bench, OlympiadBench 等
• 深度搜尋與軟體工程:
WebWalkerQA, SWE-Bench, Terminal-Bench, GAIA, HLE 等
• 知識與 MCP:
MMLU, SuperGPQA, MCP-Universe 等
對比基準包含前沿閉源模型(GPT-5.2 High, Claude Sonnet-4.5,Seed2.0 等)、強開源基礎模型(DeepSeek-V3.2-685B, Qwen3-235B-A22B)以及先進的環境擴展方法(EnvScaler,AWM,ScaleEnv)。
1. 在核心 AI 代理任務上表現卓越
表 1:在核心 AI 代理工具使用基準上的結果。
如上表所示,在當前最具挑戰性的三大 AI 代理工具使用基準——MCP-Mark、BFCL V4、τ²-Bench 上,Agent-World-8B 與 14B 穩定超越所有開源環境擴展基準。這三套基準分別考察多輪有狀態互動、跨域工具調用與長程對話,連閉源前沿模型在 MCP-Mark 上也僅停留在 50 分位左右。
更有意思的是,Agent-World-14B 在 BFCL V4 上取得了 55.8% 的成績,反超了擁有 685B 參數的 DeepSeek-V3.2-685B(54.1%),這也表明更真實的可執行環境與可驗證的獎勵,比參數更能對齊複雜的 AI 代理互動模式。
2. 長程 AI 代理推理能力顯著
圖 6:Agent-World-8B 在通用推理、AI 代理搜尋與編碼、知識與 MCP 三大能力組上的泛化表現雷達圖,全面領先基準。
如上圖所示,當我們將評測擴展到 17 個涵蓋長程推理、深度搜尋、軟體工程與知識應用的基準時,Agent-World-8B 依然在所有維度上保持領先:通用推理(MATH500, AIME, OlympiadBench 等)並未因為 AI 代理相關訓練而退化,甚至略有漲幅;在深度搜尋、軟體工程領域(GAIA, SWE-Bench, Terminal-Bench 等)這類超長輪次的任務上,優勢極其明顯。
此外,在其他知識類與 MCP 基準的表現同樣十分優秀,這證明了 Agent-World 透過環境訓練所獲得的技能是可遷移、可組合的,而非針對特定基準的過度擬合。
圖 7:Agent-World 系列模型在 SkillsBench、ARC-AGI-2、ClawEval 等前沿 AI 助手基準上展現優異效能。
3. 在進階 AI 助手場景中顯著提升
如上圖所示,Agent-World 在 SkillsBench、ARC-AGI-2 和 ClawEval 這三個要求長程規劃和真實世界執行的最新基準上同樣表現出色,且從 8B 到 14B 的規模提升穩定,而其他的基準模型則出現了能力波動。
定量分析:環境規模與自進化如何驅動效能?
除了主要的實驗結果,Agent-World 還進行了一系列有趣的定量分析。
1、訓練環境規模擴展分析
圖 8:下游 AI 代理效能隨著訓練環境數量的增加而顯著提升,呈現明確的縮放規律。
隨著逐步增加訓練環境的數量(從 0 到近 2000 個),AI 代理的效能與環境數量呈現明顯的正相關。在初期(10 到 100 個環境),效能提升迅猛,說明覆蓋關鍵互動模式至關重要;後期提升放緩但持續,表明更大規模的環境帶來了更細緻的能力提升。
2、自進化輪次分析
表 2:持續自主進化的效果。
研究驗證了自進化競技場閉環的有效性。無論是 Agent-World 模型自身,還是基準模型 EnvScaler-8B,在經過兩輪「評估-診斷-針對性訓練」的循環後,表現一致地在多個基準上獲得效能增益。這證明將環境作為訓練場,針對性地驅動資料合成,是持續提升 AI 代理環境泛化能力的有效機制。
3、多環境強化學習曲線分析
圖 8:多環境 AI 代理強化學習曲線展示。
Agent-World 雖然在複雜、混合的環境與多樣化的合成任務(基於工具圖與程序化)上進行強化學習,但其獎勵分數隨步數穩步上升,而策略熵保持相對穩定甚至增長。這表明 AI 代理在適應新環境的同時,保持了良好的探索性,沒有過早地陷入局部最優的「固化」行為。
總結與展望
Agent-World 希望透過擴展真實世界環境,實現 AI 代理與環境的持續協同進化。作為本文的作者,我們也想提出幾點在推動這項研究中發現的啟示,供研究通用 AI 代理訓練方向的朋友們參考與共同探索:
真實性是環境擴展的基石:構建高度真實、邏輯可校驗的環境,是訓練通用 AI 代理的前提。Agent-World 以 AI 代理化流水線對接真實世界主題與海量網路資訊,自動挖掘資料與工具;我們相信這只是起點,未來會有更自動、更貼近真實世界複刻的環境合成範式湧現。
進化是環境訓練的動力:規模化環境生態一旦建成,單次靜態訓練既不夠,也浪費了高成本建構的環境。Agent-World 構建了可自動診斷弱點、定向生成挑戰的閉環系統,讓 AI 代理與環境協同進化。如何將環境生態與訓練演算法深度耦合,仍是一條漫長但值得持續押注的路。
環境/任務的可擴展性通往泛化性:我們在 Agent-World 中觀察到「環境規模、自演化輪次、任務難度」與 AI 代理效能之間清晰的 scaling 關係。這提示未來應同步擴展「更多樣的環境、更複雜的任務、更多輪的進化」——這或許正是通往通用 AI 代理互動能力的一把鑰匙。
作者簡介:本文第一作者是董冠霆,中國人民大學高瓴人工智慧學院博士二年級,導師為竇志成教授和文繼榮教授。他的主要研究方向為通用 AI 代理訓練。以第一/共同第一作者身份在 ICLR、ACL 等國際頂級會議發表論文 10 餘篇;代表工作包括 ARPO, AUTOIF, Search-o1, Webthinker, FlashRAG 等。谷歌學術引用量 1 萬餘次,個人 GitHub 專案星標 8000 餘枚,並在字節跳動 Seed、阿里巴巴通義千問等基座大模型團隊實習。曾獲首屆騰訊青雲獎學金,國家獎學金、北京市優秀畢業生等榮譽。本文的通訊作者為中國人民大學的竇志成教授與字節跳動 Seed 的鍾宛君。
© THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報導:liyazhou@jiqizhixin.com