強化學習已使大型語言模型(LLM)Agent 能夠與環境互動並解決多輪長期任務。然而,經過強化學習(RL)訓練的 Agent 往往在需要主動探索的任務中表現掙扎,無法有效地從試錯經驗中適應。論文提出 LAMER(LLM Agent with Meta-RL),這是一個通用的元強化學習框架,能使 LLM Agent 在測試時主動探索並從環境回饋中學習。
核心問題:探索與利用的平衡
與人類能夠系統性地探索並在新環境中快速適應不同,若沒有大量干預,LLM Agent 無法穩健地進行探索。現有工作嘗試透過離線方式引導 LLM 的探索行為,或是從離線搜尋軌跡中誘導探索策略。但這些方法要麼關注單輪非 Agent 推理問題,要麼依賴離線數據而侷限於模仿而非主動探索。
論文將多輪任務的探索-利用平衡自然地表述為 跨 Episode 強化學習框架。由於多輪任務通常在 Episode 結束後才有稀疏的成功訊號,論文採用多 Episode 機制,將 Episode 作為探索與利用的單位。透過在多個相似但不同的環境中訓練,形成元強化學習(Meta-RL):Agent 被迫發現在未曾見過、可能更困難的環境中有效的通用策略。
LAMER 框架設計
LAMER 包含兩個關鍵設計原則:
(1) 跨 Episode 訓練框架:與標準單 Episode RL 不同,LAMER 圍繞多 Episode 結構設計,透過試錯訓練 Agent 解決問題。在早期 Episode 中,鼓勵 Agent 收集多樣化的經驗與環境的資訊回饋,然後在後續 Episode 中使用這些資訊調整策略。透過最大化跨 Episode 的長期獎勵,Agent 內化了一個明確激勵探索以改進下游利用的學習演算法。
(2) 基於反思的上下文策略適應:在訓練和測試時,Agent 有效利用先前 Episode 的回饋與反思來決定下一 Episode 的策略。這本質上在上下文中實現了 RL 演算法,使方法天然適合 LLM Agent。
元強化學習能產生更多樣化的樣本,同時達到更高的性能,比標準 RL 更好地平衡探索與利用。
實驗結果
論文在四個具有挑戰性的長期任務上評估 LAMER:Sokoban(推箱子)、MineSweeper(踩地雷)、Webshop 和 ALFWorld。使用 Qwen-3 4B 模型,LAMER 在所有環境中一致優於提示工程(Prompting)和 RL 基準:
(1) 在 Sokoban 上,相較於 RL 基準有 11% 的絕對提升。
(2) 在 MineSweeper 上,相較於 RL 基準有 14% 的絕對提升。
(3) 在 Webshop 上,相較於 RL 基準有 19% 的絕對提升。
探索-利用權衡的視覺化
論文對比了 RL 和 Meta-RL 在 MineSweeper 環境中的訓練結果:Meta-RL 訓練在保持基礎模型更高樣本多樣性的同時達到更好的成功率,實現了更好的探索-利用權衡。透過聚合多個採樣軌跡的經驗機率分布,Meta-RL 訓練的模型產生了更多樣化且更具探索性的軌跡。
泛化能力
論文展示 LAMER 訓練的模型對更困難和分佈外(Out-of-distribution)任務有更佳的泛化能力。訓練後的模型學會了平衡探索與利用,在測試時擴展效能(透過 pass@k)方面表現優於標準 RL。
據論文所知,這是首次將元強化學習框架用於 LLM Agent 訓練。總體而言,LAMER 朝著能主動行動以發現資訊並在新環境中改進決策的自主 Agent 迈出了一步。
文章原文標題:META-RL INDUCES EXPLORATION IN LANGUAGE AGENTS