近期，Google發表了2篇不錯的Multi-Agent新論文

大家好，我是PaperAgent，不是Agent！

Google近期發表了2篇論文，分別從機制設計和自動化發現兩個角度，推動了多智能體強化學習（MARL）领域的發展。

概覽

論文	核心主題	發表時間
Multi-agent cooperation through in-context co-player inference	透過上下文共玩家推理實現多智能體協作	2026年2月19日
Discovering Multiagent Learning Algorithms with Large Language Models	使用大語言模型自動發現多智能體學習演算法	2026年2月24日

Multi-agent協作

Multi-agent cooperation through in-context co-player inference

在多智能體強化學習中，實現自利益智能體之間的穩健協作是一個根本性挑戰。傳統方法面臨兩大難題：

均衡選擇問題：在一般和博弈中，存在多個納什均衡，獨立最佳化的智能體往往收斂到次優結果（如社會困境中的相互背叛）
環境非平穩性：從單個智能體視角，其他智能體同時學習導致環境動態變化

現有的「共玩家學習感知」（co-player learning awareness）方法通常依賴硬編碼的假設或嚴格區分「樸素學習者」與「元學習者」的時間尺度分離。

1.2 核心創新：上下文共玩家推理

本文的核心假設是：訓練序列模型智能體對抗多樣化的共玩家分佈，可以自然誘導出上下文最佳回應策略，無需顯式的元梯度或時間尺度分離。

圖1：混合訓練誘導穩健協作。在混合池（學習智能體+表格型智能體）中訓練的RL智能體收斂到合作（實線）。消融實驗顯示：僅對抗其他學習智能體（虛線）或提供顯式共玩家標識（點線）都會導致背叛。

1.3 協作機制的三步因果鏈

論文透過系統性實驗驗證了一個從多樣性到協作的完整因果鏈條：

Step 1: 多樣性誘導上下文最佳回應機制

訓練智能體僅對抗隨機表格型智能體池，發現智能體能夠在單局遊戲中快速識別對手並收斂到最佳回應。

圖2A-B：上下文最佳回應的湧現。PPI智能體（僅對抗表格型對手訓練）在評估時針對不同固定策略表現出快速適應能力。

Step 2: 上下文學習者易受剝削

凍結Step 1的智能體作為「固定上下文學習者」（Fixed-ICL），訓練新智能體專門剝削它。新智能體學會了透過塑造Fixed-ICL的學習動態來獲取更高收益——這就是剝削（extortion）策略。

圖2C-D：學習剝削上下文學習者。新訓練的RL智能體透過利用Fixed-ICL的適應傾向，迫使其進入不公平的合作。

Step 3: 相互剝削驅動協作

兩個從Step 2初始化的剝削智能體相互對抗時，它們相互塑造對方的上下文學習動態，最終收斂到合作行為。

圖2E-F：從相互剝削到協作。兩個剝削策略的相互塑造在單局內（F）和跨局訓練（E）中都推動了合作行為的學習。

1.4 關鍵結論

發現	意義
上下文學習作為「快速時間尺度」的樸素學習	無需顯式區分元/內循環
混合訓練池是關鍵	缺乏多樣性會導致機制退化
剝削脆弱性作為協作的驅動力	揭示了社會困境中合作湧現的新機制

理論貢獻：論文提出了Predictive Policy Improvement (PPI)演算法，並證明在完美世界模型假設下，預測均衡對應於主观嵌入均衡（Subjective Embedded Equilibrium）。

AlphaEvolve：自動發現多智能體學習演算法

Discovering Multiagent Learning Algorithms with Large Language Models

多智能體強化學習的演算法設計長期依賴人工迭代最佳化。雖然CFR和PSRO等基礎方法有堅實的理論基礎，但其最有效的變體往往依賴人類直覺來導航龐大的演算法設計空間。

本文提出使用AlphaEvolve——一個由大語言模型驅動的進化編碼智能體——來自動發現新的多智能體學習演算法。

2.2 方法框架：AlphaEvolve

AlphaEvolve將LLM的程式碼生成能力與進化演算法的嚴謹選擇壓力相結合：

循環：
  1. 基於適應度選擇父代演算法
  2. 使用LLM（Gemini 2.5 Pro）提出語義上有意義的程式碼修改
  3. 在代理遊戲上自動評估候選演算法
  4. 將有效候選加入種群

2.3 發現一：VAD-CFR（波動率自適應折扣CFR）

在CFR領域，AlphaEvolve發現了Volatility-Adaptive Discounted (VAD-)CFR，其包含三個非直觀機制：

機制	描述	傳統方法對比
波動率自適應折扣	基於瞬時遺憾幅度的EWMA動態調整折扣參數	DCFR使用固定折扣因子
非對稱瞬時增強	正瞬時遺憾增強1.1倍	傳統方法對稱處理
硬熱啟動+遺憾幅度加權	延遲至第500輪開始策略平均，並按遺憾幅度加權	標準CFR從t=1開始線性平均

圖1：CFR變體在訓練和測試遊戲上的性能。VAD-CFR（紫色線）在大多數遊戲中展現出最快的收斂速度和最低的可利用度。

關鍵程式碼結構（簡化）：

class RegretAccumulator:"""Volatility-Adaptive Discounting & Asymmetric Boosting"""
def update_accumulate_regret(self, info_state_node, iteration_number, cfr_regrets):
    # 1. 計算波動率和自適應折扣
        inst_mag = max(abs(r) for r in cfr_regrets.values())
        self.ewma = 0.1 * inst_mag + 0.9 * self.ewma
        volatility = min(1.0, self.ewma / 2.0)
        # 2. 非對稱增強
        r_boosted = r * 1.1 if r > 0 else r
        # 3. 符號相關的歷史折扣
        discount = disc_pos if prev_R >= 0 else disc_neg

2.4 發現二：SHOR-PSRO（平滑混合悲觀遺憾PSRO）

在PSRO領域，AlphaEvolve發現了Smoothed Hybrid Optimistic Regret (SHOR-)PSRO，其核心創新是：

混合元求解器架構：

悲觀遺憾匹配（ORM）：提供穩定性
平滑最佳纯策略（Softmax）：透過溫度控制的softmax積極偏置高收益模式
動態退火調度：混合因子λ從0.3→0.05退火，多樣性獎勵從0.05→0.001衰減

圖2：PSRO變體性能對比。SHOR-PSRO（棕色線）在複雜遊戲（如6面Liar's Dice）上顯著優於靜態基線。

訓練與評估的非對稱設計：

組件	訓練時	評估時
混合因子 λ	0.3 → 0.05（退火）	固定 0.01
多樣性獎勵	0.05 → 0.001（衰減）	0.0
返回策略	平均策略	最後迭代策略
內部迭代次數	1000 + 20×(種群大小-1)	8000 + 50×(種群大小-1)

2.5 完整遊戲測試結果

圖3：CFR變體在全部11個遊戲上的性能。VAD-CFR在10/11個遊戲中達到或超越SOTA。

圖4：PSRO變體在全部11個遊戲上的性能。SHOR-PSRO在8/11個遊戲中達到或超越SOTA。

兩篇論文總結

維度	論文一（機制）	論文二（自動化）
核心問題	協作如何自然湧現	如何自動發現有效演算法
關鍵洞察	上下文學習替代顯式元學習	LLM可以進化出非直觀的符號演算法
方法典範	分散式MARL + 多樣性訓練	進化演算法 + LLM程式碼生成
驗證環境	Iterated Prisoner's Dilemma	Kuhn Poker, Leduc Poker, Goofspiel, Liar's Dice
實踐意義	為Foundation Model多智能體系統提供可擴展路徑	將演算法設計從手工調參轉向自動化發現

https://arxiv.org/pdf/2602.16928
Discovering Multiagent Learning Algorithms with Large Language Models
https://arxiv.org/pdf/2602.16301
Multi-agent cooperation through in-context co-player inference

近期，Google發表了2篇不錯的Multi-Agent新論文

概覽

Multi-agent協作

1.2 核心創新：上下文共玩家推理

1.3 協作機制的三步因果鏈

Step 1: 多樣性誘導上下文最佳回應機制

Step 2: 上下文學習者易受剝削

Step 3: 相互剝削驅動協作

1.4 關鍵結論

AlphaEvolve：自動發現多智能體學習演算法

2.2 方法框架：AlphaEvolve

2.3 發現一：VAD-CFR（波動率自適應折扣CFR）

2.4 發現二：SHOR-PSRO（平滑混合悲觀遺憾PSRO）

2.5 完整遊戲測試結果

兩篇論文總結

相關文章推薦

分享網址

近期，Google發表了2篇不錯的Multi-Agent新論文

概覽

Multi-agent協作

1.2 核心創新：上下文共玩家推理

1.3 協作機制的三步因果鏈

Step 1: 多樣性誘導上下文最佳回應機制

Step 2: 上下文學習者易受剝削

Step 3: 相互剝削驅動協作

1.4 關鍵結論

AlphaEvolve： 自動發現多智能體學習演算法

2.2 方法框架：AlphaEvolve

2.3 發現一：VAD-CFR（波動率自適應折扣CFR）

2.4 發現二：SHOR-PSRO（平滑混合悲觀遺憾PSRO）

2.5 完整遊戲測試結果

兩篇論文總結

相關文章推薦

分享網址

AlphaEvolve：自動發現多智能體學習演算法