一篇精彩的自我進化代理人最新系統性綜述

大家好,我是 PaperAgent,不是 Agent!

近期,廈門大學、香港理工大學、馬里蘭大學、聖路易華盛頓大學、伊利諾大學厄巴納香檳分校、新加坡管理大學等多機構聯合發表了一篇關於 自我進化代理人(Self-Evolving Agents) 的系統性綜述:

A Systematic Survey of Self-Evolving Agents: From Model-Centric to Environment-Driven Co-Evolution
A Systematic Survey of Self-Evolving Agents: From Model-Centric to Environment-Driven Co-Evolution

這篇 survey 試圖回答一個正在變得越來越重要的問題:

當大型語言模型代理人不再只是由人類標注資料訓練出來,而是能夠主動探索、獲得回饋、更新策略、累積經驗時,我們應該如何理解它的「自我進化」?

圖1:Self-Evolving Agents 代表性工作發展趨勢
圖1:Self-Evolving Agents 代表性工作發展趨勢

從 2022 年到 2026 年,圍繞代理人的研究快速地從以模型自身能力增強為中心,逐步走向透過環境互動獲取回饋、累積經驗,並進一步發展為模型與環境相互驅動、共同進化的新典範。一條越來越清晰的技術主線正在形成:

代理人的能力邊界不僅取決於模型參數,也取決於它如何與環境互動,並從互動中持續獲得可用的學習訊號。

1. 為什麼需要自我進化代理人?

傳統代理人系統大多依賴一個「兩階段典範」:

  1. 預訓練(Pre-Training):透過大規模語料學習通用世界知識;
  2. 後訓練(Post-Training):透過監督式微調、人類回饋強化學習、人工智慧回饋強化學習或任務資料,讓模型學習特定的代理人能力。

這個典範已經極大地推動了大型語言模型代理人的發展,但它也有一個越來越明顯的瓶頸:

代理人越複雜,對高品質監督訊號的依賴就越強;而高品質人類標注、人工獎勵和專家回饋很難無限擴展。

對於簡單問答任務,人類可以直接寫答案;對於複雜代理人任務,人類不僅要判斷最終答案,還要理解多步規劃、工具調用、環境回饋、錯誤恢復和長期狀態變化。監督成本急劇上升。

Self-Evolving Agents 應用
Self-Evolving Agents 應用

更關鍵的是,如果代理人永遠依賴人類提供學習訊號,那麼它的能力上限很容易被人類經驗、標注規模和預定義任務邊界限制住。

因此,自我進化代理人的核心動機是:

讓代理人從被動接受人類監督,轉向主動構建問題、探索環境、產生回饋、修正策略,並在閉環中持續提升。

這篇 survey 將自我進化代理人概括為兩個核心特徵:

  • 高度自主性與最少人類監督:盡量減少對外部人工監督的依賴;
  • 透過互動主動探索:透過內部推理或外部環境互動主動探索和改進。

換句話說,自我進化代理人不再只是一個「被訓練好的模型」,而更像是一個可以參與自身成長過程的系統。

2. 統一分類:三條自我進化路線

這篇 survey 最重要的貢獻,是提出了一個統一的分類法(taxonomy),將自我進化代理人劃分為三大典範:

  1. 模型中心自我進化(Model-Centric Self-Evolution)
  2. 環境中心自我進化(Environment-Centric Self-Evolution)
  3. 模型-環境共同進化(Model-Environment Co-Evolution)
圖2:Self-Evolving Agents 統一分类框架
圖2:Self-Evolving Agents 統一分类框架

圖 2 給出了全文的核心分類框架。這個框架的關鍵之處在於,它不是簡單按照任務類型或技術模組劃分,而是按照「進化發生在哪裡」來組織整個領域:

  • 如果進化主要發生在模型內部,就是模型中心;
  • 如果進化來自模型對外部知識、經驗、工具和結構的利用,就是環境中心;
  • 如果模型和環境都在持續變化,並互相推動對方變強,就是模型-環境共同進化。

這一視角的重要性在於,它將原本分散的研究方向統一到一個遞進式框架中:

從模型內部計算與參數更新驅動的能力增強,到環境互動與回饋驅動的經驗積累,再到模型與環境相互適應、共同演化。

圖3:Self-Evolving Agents 技術譜系總覽
圖3:Self-Evolving Agents 技術譜系總覽

圖 3 進一步展開了自我進化代理人的完整技術分類,將不同演化路徑下的方法系統組織起來,展示了該領域從內部能力增強、外部環境互動,到模型-環境共同演化的整體技術版圖。它基本上可以作為理解當前自我進化代理人研究格局的一張技術地圖。

3. 模型中心自我進化:模型先自己變強

第一條路線是模型中心自我進化

這類方法的基本假設是:模型內部已經包含大量潛在能力,只是沒有被充分激發。因此,自進化首先可以從模型自身出發,透過更多推理計算、更好的搜尋策略,或者自生成訓練資料來提升能力。

這一路線可以進一步分成兩類:

3.1 基於推理的進化:推理時自進化

這類方法不更新模型參數,而是在單次推理過程中投入更多計算資源,讓模型「想得更充分」。代表方向包括:

  • 平行取樣:平行取樣多條推理路徑,再透過投票、排序或一致性判斷選擇答案;
  • 循序自我修正:生成、反思、修正,形成多輪自我糾錯;
  • 結構化推理:將推理過程組織成樹、圖等結構。

它的本質是:

用更多測試時計算換取更可靠的單次輸出。

但問題也很明顯:這種改進通常是暫時的。推理結束後,模型參數沒有變化,能力不會被真正內化。

3.2 基於訓練的進化:訓練時自我進化

相比之下,基於訓練的進化追求長期能力提升。模型會生成資料、篩選資料、評估資料,並透過監督式微調或強化學習將新能力寫回參數。

這篇 survey 將其分為兩條路線:

  • 合成驅動的離線自我進化:離線生成合成資料,再用於訓練;
  • 探索驅動的線上自我進化:線上探索、即時回饋、持續更新策略。
圖4:離線合成驅動進化與線上探索驅動進化對比
圖4:離線合成驅動進化與線上探索驅動進化對比

圖 4 很好地展示了二者差異。離線合成方法更像「模型給自己出教材」,可以高效率啟動,但容易受限於初始模型能力;線上探索方法則更像「模型不斷在探索中試錯」,能夠發現新的策略,但對回饋品質、訓練穩定性和探索效率要求更高。

這也是為什麼近年來 R-Zero、Absolute Zero、Agent0 等工作受到關注:它們不滿足於讓模型複述已有知識,而是嘗試讓模型透過自我博弈、環境回饋或任務探索獲得新的訓練訊號。

圖片

4. 環境中心自我進化:環境成為能力來源

第二條路線是環境中心自我進化

如果說模型中心方法主要關注模型內部如何變強,那麼環境中心方法強調:

代理人的進化不只來自參數更新,也來自它如何利用外部知識、經驗、工具、記憶和多代理人結構。

這篇 survey 將環境中心自我進化分為四個方向:

  1. 靜態知識演化
  2. 動態經驗演化
  3. 模組架構演化
  4. 代理人拓撲演化

4.1 靜態知識演化:從回答問題到主動找知識

傳統 RAG 通常是「使用者問問題,系統檢索相關文件」。但代理人 RAG 和深度研究更進一步:代理人會判斷自己缺什麼知識,主動生成查詢、瀏覽網頁、收集證據、整合推理,並最終生成結構化報告。

這意味著檢索不再只是一個前置模組,而成為代理人推理鏈中的主動認知行為。

4.2 動態經驗演化:從知識到經驗

知識解決的是「是什麼」,經驗解決的是「如何做」。

很多代理人任務不是缺知識,而是缺經驗:

  • 哪種工具調用順序更穩定?
  • 哪類錯誤應該如何恢復?
  • 哪些歷史失敗能指導當前決策?
  • 哪些工作流程可以複用到新任務?

因此,動態經驗演化關注如何從歷史軌跡、成功案例、失敗回饋和執行日誌中提煉可複用經驗。

圖5:靜態知識演化與動態經驗演化對比
圖5:靜態知識演化與動態經驗演化對比

圖 5 將靜態知識演化和動態經驗演化放在一起對比。前者更適合知識密集型任務,例如問答、搜尋和研究;後者更適合邏輯密集、長程規劃、多輪互動和具身任務,因為這些任務更依賴可遷移的行為經驗。

圖片

4.3 模組架構演化:記憶、工具和介面也要進化

代理人與環境互動並不是直接發生的,而是透過一系列模組完成的,例如:

  • 記憶模組;
  • 工具模組;
  • 互動介面;
  • 協定;
  • 技能庫。

這些模組本身也可以演化。

例如,記憶不再只是一個向量資料庫,而可以是一個能夠主動決定保留、遺忘、合併、重寫和路由的系統。工具也不只是預定義 API,而可以被代理人自動創建、組合和維護。互動介面也可以被設計得更適合模型理解和操作,從而提升代理人的穩定性。

這說明代理人的能力提升不僅是「模型更強」,也是「系統結構更適合模型發揮」。

4.4 代理人拓撲演化:多代理人結構自己演化

多代理人系統過去常常依賴人工設計角色和流程,例如規劃者、執行者、評論者、審查者等。

但在複雜任務中,固定流程未必最優。因此,代理人拓撲演化研究如何讓多代理人的通訊結構、角色分配、團隊規模和協作拓撲自動搜尋或動態調整。

這類方法的核心問題是:

多代理人系統的組織形式,能不能也成為一個可學習、可優化、可進化的對象?

5. 模型-環境共同進化:未來的關鍵方向

第三條路線,也是這篇 survey 最強調的未來方向,是模型-環境共同進化

前兩類方法各有局限:

  • 模型中心方法容易缺乏外部驗證,可能出現錯誤累積、自我強化幻覺和高方差軌跡過度估計;
  • 環境中心方法雖然引入了外部知識和回饋,但很多環境仍然是靜態的、單任務的、不可擴展的。

因此,一個更理想的方向是:

不只是模型適應環境,而是環境也隨著模型能力變化而變化。

圖6:模型-環境共同進化相對於前兩類典範的優勢
圖6:模型-環境共同進化相對於前兩類典範的優勢

圖 6 總結了模型-環境共同進化的優勢:環境可以根據代理人能力動態調整難度,按需提供有針對性的回饋,並擴展為多任務、可驗證、可持續增長的訓練場。

這一路線包含兩個核心方向:

5.1 多代理人策略共同進化

在多代理人場景中,環境本身可以由其他代理人構成。代理人之間的協作、競爭、評價和溝通會形成一個動態學習場。

例如,多個代理人可以透過同儕評價互相提供回饋,也可以透過多代理人強化學習共同優化策略。此時,環境不再是靜態背景,而是由其他正在學習的智慧體共同組成。

5.2 環境訓練

另一條路線是直接訓練或生成環境。

理想環境應該具備幾個特徵:

  • 能夠提供可驗證回饋;
  • 能夠根據代理人能力自動調整難度;
  • 能夠生成多樣化任務;
  • 能夠支援長期、開放式探索。

Reasoning Gym、AgentGym、Agent-World 等工作都在朝這個方向發展。

這也是本文的一個重要判斷:

未來自我進化代理人的核心挑戰,不只是訓練更強的代理人,而是設計能夠和代理人一起成長的環境。

Survey: A Systematic Survey of Self-Evolving Agents: From Model-Centric to Environment-Driven Co-Evolution
https://www.techrxiv.org/doi/full/10.36227/techrxiv.177203250.05832634/v2
GitHub: https://github.com/XMUDeepLIT/Awesome-Self-Evolving-Agents
相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.