最近、Google がマルチエージェントに関する 2 本の優れた論文を発表

こんにちは、PaperAgent です。エージェントではありません!

Google は最近、メカニズム設計自動発見という 2 つの異なる角度から、マルチエージェント強化学習(MARL)分野の発展を促進する 2 本の論文を発表しました。

画像

概要

論文中核テーマ発表日
Multi-agent cooperation through in-context co-player inference文脈共プレイヤー推論によるマルチエージェントの協力2026 年 2 月 19 日
Discovering Multiagent Learning Algorithms with Large Language Models大規模言語モデルを用いたマルチエージェント学習アルゴリズムの自動発見2026 年 2 月 24 日

マルチエージェントの協力

Multi-agent cooperation through in-context co-player inference
Multi-agent cooperation through in-context co-player inference

マルチエージェント強化学習において、自己利益追求型のエージェント間での堅牢な協力の実現は根本的な課題です。既存の手法には主に 2 つの大きな課題があります。

  1. 均衡選択問題:一般和ゲームでは複数のナッシュ均衡が存在し、独立して最適化されたエージェントは往々にして劣った結果(社会的ジレンマにおける相互裏切りなど)に収束してしまいます。
  2. 環境の非定常性:単一のエージェントの視点から見ると、他のエージェントも同時に学習するため環境ダイミクスが変化してしまいます。

既存の「共プレイヤー学習認識(co-player learning awareness)」手法は、多くの場合、ハードコードされた仮説や、「素朴な学習者」と「メタ学習者」を時間スケールで厳密に分離することに依存しています。

1.2 中核的な革新:文脈共プレイヤー推論

本論文の中核的な仮説は以下の通りです。多様な共プレイヤー分布に対してシーケンスモデル・エージェントを訓練することで、明示的なメタ勾配や時間スケールの分離なしに、文脈最適応答戦略を自然に誘発できるというものです。

画像

図 1:ハイブリッド訓練による堅牢な協力の誘発。ハイブリッドプール(学習中エージェント+表形式エージェント)で訓練された RL エージェントは協力に収束する(実線)。アブレーション実験により、他の学習中エージェントとのみ対戦させる(破線)か、明示的な共プレイヤー識別子を与える(点線)と、裏切りに至ることが示された。

1.3 協力メカニズムの 3 段階の因果連鎖

本論文は、多様性から協力に至る完全な因果連鎖を体系的な実験によって検証しています。

ステップ 1:多様性が文脈最適応答メカニズムを誘発する

エージェントをランダムな表形式エージェントのプールのみに敵対させて訓練したところ、エージェントは 1 ゲーム内で相手を迅速に特定し、最適応答に収束できることが判明しました。

画像

図 2A-B:文脈最適応答の創発。PPI エージェント(表形式の相手のみを敵対して訓練)は、評価時に異なる固定戦略に対して迅速な適応能力を示した。

ステップ 2:文脈学習者は搾取されやすい

ステップ 1 のエージェントを「固定文脈学習者(Fixed-ICL)」として凍結し、これを専門に搾取する新しいエージェントを訓練しました。その結果、新しいエージェントは Fixed-ICL の学習ダイミクスを形成することでより高い報酬を得る方法を学びました。これが搾取(extortion)戦略です。

画像

図 2C-D:文脈学習者の搾取を学習する。新たに訓練された RL エージェントは、Fixed-ICL の適応傾向を利用することで、不公平な協力へと導いた。

ステップ 3:相互搾取が協力を促進する

ステップ 2 から初期化された 2 つの搾取エージェントを相互に対戦させたところ、互いの文脈学習ダイミクスを形成し合い、最終的に協力行動に収束しました。

画像

図 2E-F:相互搾取から協力へ。2 つの搾取戦略の相互形成は、1 ゲーム内(F)およびゲーム間訓練(E)の両方において、協力行動の学習を促進した。

1.4 主要な結論

発見意義
「高速時間スケール」の素朴な学習としての文脈学習メタ/インナループの明示的な区別が不要
ハイブリッド訓練プールが鍵多様性が欠如するとメカニズムが劣化する
協力の推進力としての搾取の脆弱性社会的ジレンマにおける協力の創発に関する新たなメカニズムを解明

理論的貢献:本論文は Predictive Policy Improvement (PPI) アルゴリズムを提案し、完璧な世界モデルの仮定の下で、予測均衡が主観的埋め込み均衡(Subjective Embedded Equilibrium)に対応することを証明しました。

AlphaEvolve:マルチエージェント学習アルゴリズムの自動発見

Discovering Multiagent Learning Algorithms with Large Language Models
Discovering Multiagent Learning Algorithms with Large Language Models

マルチエージェント強化学習のアルゴリズム設計は、長らく人手による反復最適化に依存してきました。CFR や PSRO などの基礎的手法には確固たる理論的基盤がありますが、その最も効果的な変種は、膨大なアルゴリズム設計空間をナビゲートするために人間の直感に依存することが多くありました。

本論文では、大規模言語モデルによって駆動される進化的コード生成エージェントAlphaEvolveを用いて、新しいマルチエージェント学習アルゴリズムを自動発見することを提案します。

2.2 手法の枠組み:AlphaEvolve

AlphaEvolve は、LLM のコード生成能力と進化アルゴリズムの厳格な選択圧を組み合わせたものです。

ループ:
 1. 適応度に基づいて親アルゴリズムを選択
 2. LLM(Gemini 2.5 Pro)を使用して意味的に意味のあるコード変更を提案
 3. エージェントゲーム上で候補アルゴリズムを自動評価
 4. 有効な候補を集団に追加

2.3 発見その 1:VAD-CFR(変動率適応型割引 CFR)

CFR 分野において、AlphaEvolve はVolatility-Adaptive Discounted (VAD-)CFRを発見しました。これには直感的ではない 3 つのメカニズムが含まれています。

メカニズム説明既存手法との比較
変動率適応型割引瞬間後悔の振幅に基づく EWMA により割引パラメータを動的に調整DCFR は固定割引因子を使用
非対称瞬時増幅正の瞬間後悔を 1.1 倍に増幅既存手法は対称的に処理
ハードホットスタート+後悔振幅加重戦略平均を 500 ラウンド目から開始し、後悔振幅で加重標準 CFR は t=1 から線形平均
画像

図 1:訓練およびテストゲームにおける CFR 変種の性能。VAD-CFR(紫の線)は、ほとんどのゲームで最速の収束速度と最小の悪用可能性を示した。

主要なコード構造(簡略版):

classRegretAccumulator:"""Volatility-Adaptive Discounting & Asymmetric Boosting"""defupdate_accumulate_regret(self, info_state_node, iteration_number, cfr_regrets):# 1. 変動率と適応的割引の計算        inst_mag = max(abs(r) for r in cfr_regrets.values())        self.ewma = 0.1 * inst_mag + 0.9 * self.ewma        volatility = min(1.0, self.ewma / 2.0)# 2. 非対称増幅        r_boosted = r * 1.1if r > 0else r# 3. 符号に依存する履歴割引        discount = disc_pos if prev_R >= 0else disc_neg

2.4 発見その 2:SHOR-PSRO(平滑化混合楽観的後悔 PSRO)

PSRO 分野において、AlphaEvolve はSmoothed Hybrid Optimistic Regret (SHOR-)PSROを発見しました。その中核的な革新は以下の通りです。

ハイブリッドメタソルバーアーキテクチャ

  • 楽観的後悔マッチング(ORM):安定性を提供
  • 平滑化ベスト純粋戦略(Softmax):温度制御された softmax により、高報酬パターンへ積極的にバイアスをかける
  • 動的アニーリングスケジューリング:混合係数λを 0.3→0.05 へアニーリングし、多様性報酬を 0.05→0.001 へ減衰させる
画像

図 2:PSRO 変種の性能比較。SHOR-PSRO(茶色の線)は、複雑なゲーム(例:6 面 Liar's Dice)において静的なベースラインを大幅に上回った。

訓練と評価の非対称設計

コンポーネント訓練時評価時
混合係数 λ0.3 → 0.05(アニーリング)固定 0.01
多様性報酬0.05 → 0.001(減衰)0.0
返却戦略平均戦略最終反復戦略
内部反復回数1000 + 20×(集団サイズ -1)8000 + 50×(集団サイズ -1)

2.5 完全なゲームテスト結果

画像

図 3:全 11 ゲームにおける CFR 変種の性能。VAD-CFR は 11 ゲーム中 10 ゲームで SOTA に到達またはそれを上回った。

画像

図 4:全 11 ゲームにおける PSRO 変種の性能。SHOR-PSRO は 11 ゲーム中 8 ゲームで SOTA に到達またはそれを上回った。

2 本の論文の要約

次元論文 1(メカニズム)論文 2(自動化)
中核的な問題協力がどのように自然に創発するかいかにして効果的なアルゴリズムを自動発見するか
重要な洞察明示的なメタ学習の代わりとしての文脈学習LLM が直感的ではない記号的アルゴリズムを進化させ得る
手法のパラダイム分散型 MARL + 多様性訓練進化アルゴリズム + LLM コード生成
検証環境反復囚人のジレンマKuhn Poker, Leduc Poker, Goofspiel, Liar's Dice
実践的意義ファウンデーションモデルベースのマルチエージェントシステムへのスケーラブルな道筋を提供アルゴリズム設計を手作業のパラメータ調整から自動発見へ移行
https://arxiv.org/pdf/2602.16928 Discovering Multiagent Learning Algorithms with Large Language Models
https://arxiv.org/pdf/2602.16301 Multi-agent cooperation through in-context co-player inference

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.