強化学習により、大規模言語モデル(LLM)エージェントは環境と相互作用し、マルチターンの長期タスクを解決できるようになりました。しかし、RLで訓練されたエージェントは、能動的な探索を必要とするタスクで苦戦し、試行錯誤からの効果的な適応に失敗することがよくあります。本論文では、LLMエージェントがテスト時に能動的に探索し、環境からのフィードバックから学習することを可能にする汎用的なメタ強化学習フレームワークである LAMER(LLM Agent with Meta-RL)を提案しています。
核心問題:探索と活用のバランス
人間が系統的に探索し、新しい環境に迅速に適応するのとは異なり、LLMエージェントは多大な介入なしには堅牢に探索できません。既存の研究では、オフラインでLLMの探索行動を導くことや、オフラインの探索軌跡から探索戦略を誘導しようとしています。しかし、これらの方法は、単一ターンの非エージェント推論問題に焦点を当てているか、オフラインデータに依存しており、能動的な探索ではなく模倣に限定されています。
本論文は、マルチターンタスクの探索と活用のバランスを、クロスエピソード強化学習フレームワークとして自然に定式化します。マルチターンタスクは通常、エピソード終了後にのみ希な成功シグナルが得られるため、本論文ではクロスエピソードメカニズムを採用し、エピソードを探索と活用の単位としています。類似しているが異なる複数の環境で訓練し、メタ強化学習を形成します。これにより、エージェントは未見の、おそらくより困難な環境で効果的な一般戦略を発見することを強制されます。
LAMER フレームワークの設計
LAMERには2つの主要な設計原則が含まれています。
(1) クロスエピソード訓練フレームワーク:標準的な単一エピソードRLとは異なり、LAMERは複数エピソード構造を中心に設計されており、試行錯誤を通じてタスクを解決するようにエージェントを訓練します。初期エピソードでは、エージェントに多様な経験と環境のフィードバックを集めさせ、後続のエピソードでこれらの情報を使用して戦略を調整します。エピソード全体での長期報酬を最大化することで、下流の活用を改善するための探索を明示的に奨励する学習アルゴリズムをエージェントに内化させます。
(2) リフレクションベースコンテキスト戦略適応:訓練およびテスト時に、エージェントは先前のエピソードのフィードバックとリフレクション(内省)を効果的に利用して、次のエピソードの戦略を決定します。これにより、本質的にコンテキスト内でRLアルゴリズムが実装され、方法はLLMエージェントに自然に適合します。
メタRLは、標準的なRLよりも優れた探索と活用のバランスを実現し、より高い性能を達成しながら、より多様なサンプルを生成します。
実験結果
論文では、Sokoban(ソコバン)、MineSweeper(マインスイーパ)、Webshop、ALFWorldの4つの挑戦的な長期タスクでLAMERを評価しました。Qwen-3 4Bを使用し、LAMERはすべての環境でプロンプティングおよびRLベースラインよりも一貫して優れていました。
(1) Sokobanで、RLベースラインに対し11%の絶対的な向上。
(2) MineSweeperで、RLベースラインに対し14%の絶対的な向上。
(3) Webshopで、RLベースラインに対し19%の絶対的な向上。
探索と活用のトレードオフの可視化
論文は、MineSweeper環境におけるRLとMeta-RLの訓練結果を比較しています。Meta-RLの訓練は、基盤モデルの高いサンプル多様性を維持しながら、より良い成功率を達成し、より優れた探索と活用のトレードオフを実現しています。複数のサンプリング軌跡の経験確率分布を集約することで、Meta-RLで訓練されたモデルは、より多様で探索的な軌跡を生成します。
汎化能力
論文は、LAMERで訓練されたモデルが、より困難で分布外(OOD)のタスクに対して優れた汎化能力を示すことを示しています。訓練されたモデルは探索と活用のバランスを学習し、テスト時のスケーリング性能(pass@k経由)において標準的なRLを上回ります。
筆者らの知る限り、メタRLフレームワークをLLMエージェント訓練に適用するのは初めてです。全体として、LAMERは、能動的に行動して情報を発見し、新しい環境で意思決定を改善する自律エージェントの一歩を示しています。
記事原标题:META-RL INDUCES EXPLORATION IN LANGUAGE AGENTS