WWW'26 | 跨任務自適應的Multi-Agent協作新典範

大家好，我是PaperAgent，不是Agent！

大型語言模型驅動的多智能體系統（Multi-Agent Systems, MAS）正成為解決複雜任務的重要典範：不同智能體承擔不同角色，透過協作完成數學推理、程式碼生成、知識問答乃至Web服務中的複雜用戶請求。

但一個關鍵問題始終存在：智能體之間應該如何協作？誰先發言？誰向誰傳遞資訊？哪些專家需要加入？這些問題共同決定了 MAS 的協作拓撲，也直接影響系統的效能、效率和強健性。

現有自動拓撲設計方法雖然能為特定任務學習協作結構，但大多仍遵循 one model for one dataset (one-for-one) 典範：為每個任務域單獨訓練一個拓撲設計模型。面對真實場景中跨領域、不可預知的使用者請求，這種方式不僅維護成本高，也難以複用不同任務之間共享的協作知識。

近期，來自 Griffith University 和 Northwest A&F University 的團隊提出了 OFA-MAS，將多智能體拓撲設計從 one-for-one 推向 one-for-all：只訓練一個通用拓撲設計模型，即可為不同領域的自然語言任務自動生成合適的多智能體協作圖。

OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models
作者：Shiyuan Li, Yixin Liu, Yu Zheng, Mei Li, Quoc Viet Hung Nguyen, Shirui Pan
https://dl.acm.org/doi/abs/10.1145/3774904.3792537
https://github.com/Shiy-Li/OFA-MAS

從 one-for-one 到 one-for-all：多智能體拓撲設計的新典範

多智能體系統的能力不僅取決於單個 agent 的能力，也取決於它們之間的通訊結構。一個好的拓撲可以讓正確的專家在正確的時刻參與推理，而一個差的拓撲則可能造成資訊冗餘、錯誤傳播或協作低效。

早期方法通常依賴人工設計結構，例如 Chain、Tree、Debate 等固定拓撲。這些結構簡單直觀，但很難適應不同任務。近期的圖學習方法進一步嘗試自動設計拓撲，例如 AgentDropout 透過動態剪枝優化預定義圖，G-Designer 學習任務相關的互動結構，ARG-Designer 則以自迴歸方式生成多智能體協作拓撲。

然而，這些方法仍是 one-for-one：在 MMLU、GSM8K、HumanEval 等單一任務域上分別訓練專屬模型。這樣的典範在真實部署中面臨三類問題：

領域假設脫離實際：one-for-one 典範假設任務領域單一且已知，但真實請求往往跨域且不可預測。系統無法要求使用者預先進行領域分類，極大限制了實際落地。
擴展和維護成本高：每增加一個新領域，就可能需要重新收集資料、訓練模型和調參。
忽略跨域共享知識：數學推理、程式碼除錯和知識問答中可能共享類似的協作模式，例如「分析者 → 檢查者 → 求解者」。

OFA-MAS 的目標正是訓練一個通用的拓撲設計器，讓它能夠從多領域任務中學習可複用的協作規律，並在推理時為任意輸入 query 生成合適的 MAS 拓撲。

OFA-MAS 如何生成跨域協作拓撲？

OFA-MAS 將 MAS 拓撲設計建模為一個條件圖生成問題：給定使用者 query 和通用角色池，模型直接生成一個協作圖，其中節點是智能體角色，邊表示資訊流。

OFA-MAS 採用自迴歸圖生成作為基礎框架：

選擇下一個智能體角色：根據當前任務和已生成的部分圖，決定下一步需要加入哪類專家。
預測通訊連接：確定新加入的智能體應接收哪些已有智能體的資訊。
逐步擴展拓撲：不斷重複「選角色—連邊」的過程，直到生成完整協作圖。

這種自迴歸方式天然適合 one-for-all 場景：不同任務可以生成不同規模、不同角色組合、不同通訊方式的拓撲，而不必依賴固定模板。

任務感知圖狀態編碼：讓拓撲生成真正「看懂任務」

僅有自迴歸生成還不夠。對於 one-for-all 模型而言，同一個部分圖在不同任務下可能意味著完全不同的下一步決策。例如，程式碼生成任務可能需要 Reviewer 和 Debugger，而數學題則更需要 Solver 和 Verifier。

為此，OFA-MAS 設計了 Task-Aware Graph State Encoder (TAGSE)。它的核心思想是：在編碼當前部分圖時，持續注入任務語義，讓圖中的每個節點表示都受到 query 的調控。

具體而言，TAGSE 使用預訓練句向量模型編碼任務 query 和角色描述，並透過上下文門控機制過濾與當前任務無關的資訊流。這樣，模型在進行訊息傳遞時，不是機械地聚合所有鄰居資訊，而是根據任務需求選擇真正有用的結構資訊。

這種設計讓 OFA-MAS 能夠在統一模型中處理多種任務類型，同時保留任務特異性。

MoE 圖生成模組：為不同任務啟動不同「設計專家」

跨領域 MAS 拓撲並不存在單一最優設計策略。數學推理可能偏好逐步求解和驗證，程式碼生成可能需要實作、審查和除錯，而知識問答可能更依賴資訊檢索與綜合。

因此，OFA-MAS 引入了 Mixture-of-Experts (MoE) 生成模組。模型內部包含多個專家網路，並由門控網路根據任務語義動態決定哪些專家參與當前拓撲生成。

在每一步生成中，MoE 模組分別用於：

節點生成：預測下一個應該加入的智能體角色。
邊生成：預測新智能體與已有智能體之間的資訊連接。

這種機制使 OFA-MAS 能在一個通用模型中學習多種協作策略：不同任務可啟動不同專家組合，從而兼顧跨域共享和領域特化。

三階段訓練：從結構語法到任務對齊，再到真實驗證

訓練一個 one-for-all 拓撲設計模型並不容易，因為高品質的「任務—最優拓撲」監督資料非常昂貴。OFA-MAS 透過一個由易到難的三階段訓練策略解決這一問題。

無條件圖預訓練：先使用 Chain、Star、FullConnected 等經典拓撲，讓模型學習協作圖的基本「語法」。
LLM 驅動的條件預訓練：利用大型語言模型作為「代理系統設計師」，低成本生成大規模「任務 query—MAS 配置」資料，讓模型學習任務語義與拓撲結構之間的對應關係。
監督式生成微調：最後使用少量真實 benchmark 中經 MAS 執行驗證的高品質拓撲進行微調，使模型對實際任務效能更敏感。

透過這種課程學習方式，OFA-MAS 先掌握一般圖結構，再學習跨域任務對齊，最終用真實執行結果校準生成品質。

實驗效果：一個模型，跨六大基準穩定領先

實驗涵蓋了六個代表性 benchmark，包括 MMLU、GSM8K、AQuA、MultiArith、SVAMP 和 HumanEval，並進一步在 GAIA 上測試未見領域的 OOD 泛化能力。

對比方法包括單智能體 CoT 和 Self-Consistency、固定 MAS 拓撲、Debate 系統，以及 AgentPrune、AgentDropout、G-Designer、EIB-LEARNER 等 one-for-one 圖學習拓撲設計方法。

1）整體效能：one-for-all 模型超越專屬 one-for-one 方法

如下圖所示，OFA-MAS 在六個 benchmark 上取得了最優平均表現，達到 93.02% 的平均成功率，超過所有對比方法。

更值得注意的是，即使只使用前兩階段預訓練、沒有真實 benchmark 微調，OFA-MAS 也能達到 92.15% 的平均效能，超過最強 baseline EIB-LEARNER。這說明 LLM 驅動的合成資料和通用結構預訓練已經能提供強大的跨域拓撲設計能力。

2）OOD 泛化：在未見過的 GAIA 任務上仍保持優勢

為了檢驗模型是否真的具備跨域泛化能力，論文在訓練中未見過的 GAIA benchmark 上進行測試。

需要注意的是，在當前評測設定下，所有方法都未使用 tool calling 等外部工具能力，而是僅比較不同 MAS 拓撲在相同基礎模型和相同無工具條件下的表現。這與當前 MAS 拓撲生成研究的標準設定一致，能夠更直接地衡量拓撲設計本身帶來的收益。

結果顯示，OFA-MAS 在 GAIA 上取得最高平均準確率，並在 Level-1 任務上表現突出。相較之下，one-for-one 學習型方法在 OOD 場景下明顯退化，甚至不如簡單的 Chain 拓撲。這說明 OFA-MAS 學到的不是某個任務域的局部規律，而是更通用的協作結構知識。

3）消融實驗：TAGSE、MoE 和訓練課程均不可或缺

消融實驗顯示，替換 TAGSE、移除 MoE、去掉三階段訓練中的任一階段，都會導致效能下降。這驗證了 OFA-MAS 的關鍵設計並非簡單堆疊，而是共同支撐了 one-for-all 拓撲生成。

其中，任務感知編碼讓模型能夠根據 query 調整圖狀態表示，MoE 模組提供跨任務的專家化生成能力，而無條件預訓練、LLM 合成資料預訓練和真實資料微調則分別負責結構先驗、任務拓撲對齊和經驗效能校準。

4）強健性、案例研究與 MoE 視覺化：從結果到機制驗證 OFA-MAS

(a) 在模擬惡意 agent 的強健性測試中，OFA-MAS 的效能下降僅約 2.2%，明顯優於其他方法。這說明其生成的協作結構不會過度依賴單一關鍵節點，更適合真實場景中可能存在不可靠 agent 的部署環境。

(b)-(c) 案例分析也表明，OFA-MAS 能根據任務動態選擇合適角色：在 HumanEval 中生成面向程式碼開發的順序審查結構，在 GSM8K 中則組合數學求解、程式輔助和檢查角色，體現出從通用角色池中靈活組隊的能力。

(d) MoE 視覺化進一步展示了模型內部的專家分化現象：同一領域任務會穩定啟動相似專家組合，而不同領域則呈現明顯不同的專家偏好。例如，HumanEval 更偏向程式碼生成相關專家，GSM8K 和 MultiArith 則更多啟動數學推理相關專家。

5）效率分析：更高準確率與可控 token cost

除效能優勢外，OFA-MAS 在準確率與計算開銷之間也實現了極佳的平衡。Token 消耗對比顯示，在 MMLU 和 GSM8K 上，OFA-MAS 能以極具競爭力的推理成本取得更高的準確率。

這說明 OFA-MAS 並不是簡單地透過擴大協作規模來換取效能，而是能夠生成更合適的資訊流結構，在控制推理成本的同時提升多智能體協作效果。

動手設計AI Agents：（編排、記憶、插件、workflow、協作）

分享兩篇Claude Skills最新論文，有3個核心結論

會學習的龍蝦，才是好龍蝦：OpenClaw-RL 2026，做Agentic AI，繞不開這兩篇開年綜述

每天一篇大模型Paper來鍛鍊我們的思維~已經讀到這了，不妨點個👍、❤️、↗️三連，加個星標⭐，不迷路哦~