近期,Google發表了2篇不錯的Multi-Agent新論文

大家好,我是PaperAgent,不是Agent!

Google近期發表了2篇論文,分別從機制設計自動化發現兩個角度,推動了多智能體強化學習(MARL)领域的發展。

圖片

概覽

論文核心主題發表時間
Multi-agent cooperation through in-context co-player inference透過上下文共玩家推理實現多智能體協作2026年2月19日
Discovering Multiagent Learning Algorithms with Large Language Models使用大語言模型自動發現多智能體學習演算法2026年2月24日

Multi-agent協作

Multi-agent cooperation through in-context co-player inference
Multi-agent cooperation through in-context co-player inference

在多智能體強化學習中,實現自利益智能體之間的穩健協作是一個根本性挑戰。傳統方法面臨兩大難題:

  1. 均衡選擇問題:在一般和博弈中,存在多個納什均衡,獨立最佳化的智能體往往收斂到次優結果(如社會困境中的相互背叛)
  2. 環境非平穩性:從單個智能體視角,其他智能體同時學習導致環境動態變化

現有的「共玩家學習感知」(co-player learning awareness)方法通常依賴硬編碼的假設或嚴格區分「樸素學習者」與「元學習者」的時間尺度分離。

1.2 核心創新:上下文共玩家推理

本文的核心假設是:訓練序列模型智能體對抗多樣化的共玩家分佈,可以自然誘導出上下文最佳回應策略,無需顯式的元梯度或時間尺度分離。

圖片

圖1:混合訓練誘導穩健協作。在混合池(學習智能體+表格型智能體)中訓練的RL智能體收斂到合作(實線)。消融實驗顯示:僅對抗其他學習智能體(虛線)或提供顯式共玩家標識(點線)都會導致背叛。

1.3 協作機制的三步因果鏈

論文透過系統性實驗驗證了一個從多樣性到協作的完整因果鏈條:

Step 1: 多樣性誘導上下文最佳回應機制

訓練智能體僅對抗隨機表格型智能體池,發現智能體能夠在單局遊戲中快速識別對手並收斂到最佳回應。

圖片

圖2A-B:上下文最佳回應的湧現。PPI智能體(僅對抗表格型對手訓練)在評估時針對不同固定策略表現出快速適應能力。

Step 2: 上下文學習者易受剝削

凍結Step 1的智能體作為「固定上下文學習者」(Fixed-ICL),訓練新智能體專門剝削它。新智能體學會了透過塑造Fixed-ICL的學習動態來獲取更高收益——這就是剝削(extortion)策略。

圖片

圖2C-D:學習剝削上下文學習者。新訓練的RL智能體透過利用Fixed-ICL的適應傾向,迫使其進入不公平的合作。

Step 3: 相互剝削驅動協作

兩個從Step 2初始化的剝削智能體相互對抗時,它們相互塑造對方的上下文學習動態,最終收斂到合作行為。

圖片

圖2E-F:從相互剝削到協作。兩個剝削策略的相互塑造在單局內(F)和跨局訓練(E)中都推動了合作行為的學習。

1.4 關鍵結論

發現意義
上下文學習作為「快速時間尺度」的樸素學習無需顯式區分元/內循環
混合訓練池是關鍵缺乏多樣性會導致機制退化
剝削脆弱性作為協作的驅動力揭示了社會困境中合作湧現的新機制

理論貢獻:論文提出了Predictive Policy Improvement (PPI)演算法,並證明在完美世界模型假設下,預測均衡對應於主观嵌入均衡(Subjective Embedded Equilibrium)。

AlphaEvolve: 自動發現多智能體學習演算法

Discovering Multiagent Learning Algorithms with Large Language Models
Discovering Multiagent Learning Algorithms with Large Language Models

多智能體強化學習的演算法設計長期依賴人工迭代最佳化。雖然CFR和PSRO等基礎方法有堅實的理論基礎,但其最有效的變體往往依賴人類直覺來導航龐大的演算法設計空間。

本文提出使用AlphaEvolve——一個由大語言模型驅動的進化編碼智能體——來自動發現新的多智能體學習演算法。

2.2 方法框架:AlphaEvolve

AlphaEvolve將LLM的程式碼生成能力與進化演算法的嚴謹選擇壓力相結合:

循環:
  1. 基於適應度選擇父代演算法
  2. 使用LLM(Gemini 2.5 Pro)提出語義上有意義的程式碼修改
  3. 在代理遊戲上自動評估候選演算法
  4. 將有效候選加入種群

2.3 發現一:VAD-CFR(波動率自適應折扣CFR)

在CFR領域,AlphaEvolve發現了Volatility-Adaptive Discounted (VAD-)CFR,其包含三個非直觀機制:

機制描述傳統方法對比
波動率自適應折扣基於瞬時遺憾幅度的EWMA動態調整折扣參數DCFR使用固定折扣因子
非對稱瞬時增強正瞬時遺憾增強1.1倍傳統方法對稱處理
硬熱啟動+遺憾幅度加權延遲至第500輪開始策略平均,並按遺憾幅度加權標準CFR從t=1開始線性平均
圖片

圖1:CFR變體在訓練和測試遊戲上的性能。VAD-CFR(紫色線)在大多數遊戲中展現出最快的收斂速度和最低的可利用度。

關鍵程式碼結構(簡化):

class RegretAccumulator:"""Volatility-Adaptive Discounting & Asymmetric Boosting"""
def update_accumulate_regret(self, info_state_node, iteration_number, cfr_regrets):
    # 1. 計算波動率和自適應折扣
        inst_mag = max(abs(r) for r in cfr_regrets.values())
        self.ewma = 0.1 * inst_mag + 0.9 * self.ewma
        volatility = min(1.0, self.ewma / 2.0)
        # 2. 非對稱增強
        r_boosted = r * 1.1 if r > 0 else r
        # 3. 符號相關的歷史折扣
        discount = disc_pos if prev_R >= 0 else disc_neg

2.4 發現二:SHOR-PSRO(平滑混合悲觀遺憾PSRO)

在PSRO領域,AlphaEvolve發現了Smoothed Hybrid Optimistic Regret (SHOR-)PSRO,其核心創新是:

混合元求解器架構

  • 悲觀遺憾匹配(ORM):提供穩定性
  • 平滑最佳纯策略(Softmax):透過溫度控制的softmax積極偏置高收益模式
  • 動態退火調度:混合因子λ從0.3→0.05退火,多樣性獎勵從0.05→0.001衰減
圖片

圖2:PSRO變體性能對比。SHOR-PSRO(棕色線)在複雜遊戲(如6面Liar's Dice)上顯著優於靜態基線。

訓練與評估的非對稱設計

組件訓練時評估時
混合因子 λ0.3 → 0.05(退火)固定 0.01
多樣性獎勵0.05 → 0.001(衰減)0.0
返回策略平均策略最後迭代策略
內部迭代次數1000 + 20×(種群大小-1)8000 + 50×(種群大小-1)

2.5 完整遊戲測試結果

圖片

圖3:CFR變體在全部11個遊戲上的性能。VAD-CFR在10/11個遊戲中達到或超越SOTA。

圖片

圖4:PSRO變體在全部11個遊戲上的性能。SHOR-PSRO在8/11個遊戲中達到或超越SOTA。

兩篇論文總結

維度論文一(機制)論文二(自動化)
核心問題協作如何自然湧現如何自動發現有效演算法
關鍵洞察上下文學習替代顯式元學習LLM可以進化出非直觀的符號演算法
方法典範分散式MARL + 多樣性訓練進化演算法 + LLM程式碼生成
驗證環境Iterated Prisoner's DilemmaKuhn Poker, Leduc Poker, Goofspiel, Liar's Dice
實踐意義為Foundation Model多智能體系統提供可擴展路徑將演算法設計從手工調參轉向自動化發現
https://arxiv.org/pdf/2602.16928
Discovering Multiagent Learning Algorithms with Large Language Models
https://arxiv.org/pdf/2602.16301
Multi-agent cooperation through in-context co-player inference

推薦閱讀


每天一篇大模型Paper來鍛鍊我們的思維~已經讀到這了,不妨點個👍、❤️、↗️三連,加個星標⭐,不迷路哦~


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.