こんにちは、PaperAgent です。エージェントではありません!
Google は最近、メカニズム設計と自動発見という 2 つの異なる角度から、マルチエージェント強化学習(MARL)分野の発展を促進する 2 本の論文を発表しました。
概要
| 論文 | 中核テーマ | 発表日 |
|---|---|---|
| Multi-agent cooperation through in-context co-player inference | 文脈共プレイヤー推論によるマルチエージェントの協力 | 2026 年 2 月 19 日 |
| Discovering Multiagent Learning Algorithms with Large Language Models | 大規模言語モデルを用いたマルチエージェント学習アルゴリズムの自動発見 | 2026 年 2 月 24 日 |
マルチエージェントの協力
マルチエージェント強化学習において、自己利益追求型のエージェント間での堅牢な協力の実現は根本的な課題です。既存の手法には主に 2 つの大きな課題があります。
- 均衡選択問題:一般和ゲームでは複数のナッシュ均衡が存在し、独立して最適化されたエージェントは往々にして劣った結果(社会的ジレンマにおける相互裏切りなど)に収束してしまいます。
- 環境の非定常性:単一のエージェントの視点から見ると、他のエージェントも同時に学習するため環境ダイミクスが変化してしまいます。
既存の「共プレイヤー学習認識(co-player learning awareness)」手法は、多くの場合、ハードコードされた仮説や、「素朴な学習者」と「メタ学習者」を時間スケールで厳密に分離することに依存しています。
1.2 中核的な革新:文脈共プレイヤー推論
本論文の中核的な仮説は以下の通りです。多様な共プレイヤー分布に対してシーケンスモデル・エージェントを訓練することで、明示的なメタ勾配や時間スケールの分離なしに、文脈最適応答戦略を自然に誘発できるというものです。
図 1:ハイブリッド訓練による堅牢な協力の誘発。ハイブリッドプール(学習中エージェント+表形式エージェント)で訓練された RL エージェントは協力に収束する(実線)。アブレーション実験により、他の学習中エージェントとのみ対戦させる(破線)か、明示的な共プレイヤー識別子を与える(点線)と、裏切りに至ることが示された。
1.3 協力メカニズムの 3 段階の因果連鎖
本論文は、多様性から協力に至る完全な因果連鎖を体系的な実験によって検証しています。
ステップ 1:多様性が文脈最適応答メカニズムを誘発する
エージェントをランダムな表形式エージェントのプールのみに敵対させて訓練したところ、エージェントは 1 ゲーム内で相手を迅速に特定し、最適応答に収束できることが判明しました。
図 2A-B:文脈最適応答の創発。PPI エージェント(表形式の相手のみを敵対して訓練)は、評価時に異なる固定戦略に対して迅速な適応能力を示した。
ステップ 2:文脈学習者は搾取されやすい
ステップ 1 のエージェントを「固定文脈学習者(Fixed-ICL)」として凍結し、これを専門に搾取する新しいエージェントを訓練しました。その結果、新しいエージェントは Fixed-ICL の学習ダイミクスを形成することでより高い報酬を得る方法を学びました。これが搾取(extortion)戦略です。
図 2C-D:文脈学習者の搾取を学習する。新たに訓練された RL エージェントは、Fixed-ICL の適応傾向を利用することで、不公平な協力へと導いた。
ステップ 3:相互搾取が協力を促進する
ステップ 2 から初期化された 2 つの搾取エージェントを相互に対戦させたところ、互いの文脈学習ダイミクスを形成し合い、最終的に協力行動に収束しました。
図 2E-F:相互搾取から協力へ。2 つの搾取戦略の相互形成は、1 ゲーム内(F)およびゲーム間訓練(E)の両方において、協力行動の学習を促進した。
1.4 主要な結論
| 発見 | 意義 |
|---|---|
| 「高速時間スケール」の素朴な学習としての文脈学習 | メタ/インナループの明示的な区別が不要 |
| ハイブリッド訓練プールが鍵 | 多様性が欠如するとメカニズムが劣化する |
| 協力の推進力としての搾取の脆弱性 | 社会的ジレンマにおける協力の創発に関する新たなメカニズムを解明 |
理論的貢献:本論文は Predictive Policy Improvement (PPI) アルゴリズムを提案し、完璧な世界モデルの仮定の下で、予測均衡が主観的埋め込み均衡(Subjective Embedded Equilibrium)に対応することを証明しました。
AlphaEvolve:マルチエージェント学習アルゴリズムの自動発見
マルチエージェント強化学習のアルゴリズム設計は、長らく人手による反復最適化に依存してきました。CFR や PSRO などの基礎的手法には確固たる理論的基盤がありますが、その最も効果的な変種は、膨大なアルゴリズム設計空間をナビゲートするために人間の直感に依存することが多くありました。
本論文では、大規模言語モデルによって駆動される進化的コード生成エージェントAlphaEvolveを用いて、新しいマルチエージェント学習アルゴリズムを自動発見することを提案します。
2.2 手法の枠組み:AlphaEvolve
AlphaEvolve は、LLM のコード生成能力と進化アルゴリズムの厳格な選択圧を組み合わせたものです。
ループ:
1. 適応度に基づいて親アルゴリズムを選択
2. LLM(Gemini 2.5 Pro)を使用して意味的に意味のあるコード変更を提案
3. エージェントゲーム上で候補アルゴリズムを自動評価
4. 有効な候補を集団に追加2.3 発見その 1:VAD-CFR(変動率適応型割引 CFR)
CFR 分野において、AlphaEvolve はVolatility-Adaptive Discounted (VAD-)CFRを発見しました。これには直感的ではない 3 つのメカニズムが含まれています。
| メカニズム | 説明 | 既存手法との比較 |
|---|---|---|
| 変動率適応型割引 | 瞬間後悔の振幅に基づく EWMA により割引パラメータを動的に調整 | DCFR は固定割引因子を使用 |
| 非対称瞬時増幅 | 正の瞬間後悔を 1.1 倍に増幅 | 既存手法は対称的に処理 |
| ハードホットスタート+後悔振幅加重 | 戦略平均を 500 ラウンド目から開始し、後悔振幅で加重 | 標準 CFR は t=1 から線形平均 |
図 1:訓練およびテストゲームにおける CFR 変種の性能。VAD-CFR(紫の線)は、ほとんどのゲームで最速の収束速度と最小の悪用可能性を示した。
主要なコード構造(簡略版):
classRegretAccumulator:"""Volatility-Adaptive Discounting & Asymmetric Boosting"""defupdate_accumulate_regret(self, info_state_node, iteration_number, cfr_regrets):# 1. 変動率と適応的割引の計算 inst_mag = max(abs(r) for r in cfr_regrets.values()) self.ewma = 0.1 * inst_mag + 0.9 * self.ewma volatility = min(1.0, self.ewma / 2.0)# 2. 非対称増幅 r_boosted = r * 1.1if r > 0else r# 3. 符号に依存する履歴割引 discount = disc_pos if prev_R >= 0else disc_neg2.4 発見その 2:SHOR-PSRO(平滑化混合楽観的後悔 PSRO)
PSRO 分野において、AlphaEvolve はSmoothed Hybrid Optimistic Regret (SHOR-)PSROを発見しました。その中核的な革新は以下の通りです。
ハイブリッドメタソルバーアーキテクチャ:
- 楽観的後悔マッチング(ORM):安定性を提供
- 平滑化ベスト純粋戦略(Softmax):温度制御された softmax により、高報酬パターンへ積極的にバイアスをかける
- 動的アニーリングスケジューリング:混合係数λを 0.3→0.05 へアニーリングし、多様性報酬を 0.05→0.001 へ減衰させる
図 2:PSRO 変種の性能比較。SHOR-PSRO(茶色の線)は、複雑なゲーム(例:6 面 Liar's Dice)において静的なベースラインを大幅に上回った。
訓練と評価の非対称設計:
| コンポーネント | 訓練時 | 評価時 |
|---|---|---|
| 混合係数 λ | 0.3 → 0.05(アニーリング) | 固定 0.01 |
| 多様性報酬 | 0.05 → 0.001(減衰) | 0.0 |
| 返却戦略 | 平均戦略 | 最終反復戦略 |
| 内部反復回数 | 1000 + 20×(集団サイズ -1) | 8000 + 50×(集団サイズ -1) |
2.5 完全なゲームテスト結果
図 3:全 11 ゲームにおける CFR 変種の性能。VAD-CFR は 11 ゲーム中 10 ゲームで SOTA に到達またはそれを上回った。
図 4:全 11 ゲームにおける PSRO 変種の性能。SHOR-PSRO は 11 ゲーム中 8 ゲームで SOTA に到達またはそれを上回った。
2 本の論文の要約
| 次元 | 論文 1(メカニズム) | 論文 2(自動化) |
|---|---|---|
| 中核的な問題 | 協力がどのように自然に創発するか | いかにして効果的なアルゴリズムを自動発見するか |
| 重要な洞察 | 明示的なメタ学習の代わりとしての文脈学習 | LLM が直感的ではない記号的アルゴリズムを進化させ得る |
| 手法のパラダイム | 分散型 MARL + 多様性訓練 | 進化アルゴリズム + LLM コード生成 |
| 検証環境 | 反復囚人のジレンマ | Kuhn Poker, Leduc Poker, Goofspiel, Liar's Dice |
| 実践的意義 | ファウンデーションモデルベースのマルチエージェントシステムへのスケーラブルな道筋を提供 | アルゴリズム設計を手作業のパラメータ調整から自動発見へ移行 |
https://arxiv.org/pdf/2602.16928 Discovering Multiagent Learning Algorithms with Large Language Models
https://arxiv.org/pdf/2602.16301 Multi-agent cooperation through in-context co-player inference