LAMER：元強化學習讓語言Agent學會主動探索

強化學習已使大型語言模型（LLM）Agent 能夠與環境互動並解決多輪長期任務。然而，經過強化學習（RL）訓練的 Agent 往往在需要主動探索的任務中表現掙扎，無法有效地從試錯經驗中適應。論文提出 LAMER（LLM Agent with Meta-RL），這是一個通用的元強化學習框架，能使 LLM Agent 在測試時主動探索並從環境回饋中學習。

LAMER 框架示意圖

核心問題：探索與利用的平衡

與人類能夠系統性地探索並在新環境中快速適應不同，若沒有大量干預，LLM Agent 無法穩健地進行探索。現有工作嘗試透過離線方式引導 LLM 的探索行為，或是從離線搜尋軌跡中誘導探索策略。但這些方法要麼關注單輪非 Agent 推理問題，要麼依賴離線數據而侷限於模仿而非主動探索。

論文將多輪任務的探索-利用平衡自然地表述為 跨 Episode 強化學習框架。由於多輪任務通常在 Episode 結束後才有稀疏的成功訊號，論文採用多 Episode 機制，將 Episode 作為探索與利用的單位。透過在多個相似但不同的環境中訓練，形成元強化學習（Meta-RL）：Agent 被迫發現在未曾見過、可能更困難的環境中有效的通用策略。

跨 Episode 學習示意圖

LAMER 框架設計

LAMER 包含兩個關鍵設計原則：

(1) 跨 Episode 訓練框架：與標準單 Episode RL 不同，LAMER 圍繞多 Episode 結構設計，透過試錯訓練 Agent 解決問題。在早期 Episode 中，鼓勵 Agent 收集多樣化的經驗與環境的資訊回饋，然後在後續 Episode 中使用這些資訊調整策略。透過最大化跨 Episode 的長期獎勵，Agent 內化了一個明確激勵探索以改進下游利用的學習演算法。

(2) 基於反思的上下文策略適應：在訓練和測試時，Agent 有效利用先前 Episode 的回饋與反思來決定下一 Episode 的策略。這本質上在上下文中實現了 RL 演算法，使方法天然適合 LLM Agent。

元強化學習能產生更多樣化的樣本，同時達到更高的性能，比標準 RL 更好地平衡探索與利用。

探索與利用權衡比較

實驗結果

論文在四個具有挑戰性的長期任務上評估 LAMER：Sokoban（推箱子）、MineSweeper（踩地雷）、Webshop 和 ALFWorld。使用 Qwen-3 4B 模型，LAMER 在所有環境中一致優於提示工程（Prompting）和 RL 基準：

(1) 在 Sokoban 上，相較於 RL 基準有 11% 的絕對提升。

(2) 在 MineSweeper 上，相較於 RL 基準有 14% 的絕對提升。

(3) 在 Webshop 上，相較於 RL 基準有 19% 的絕對提升。

探索-利用權衡的視覺化

論文對比了 RL 和 Meta-RL 在 MineSweeper 環境中的訓練結果：Meta-RL 訓練在保持基礎模型更高樣本多樣性的同時達到更好的成功率，實現了更好的探索-利用權衡。透過聚合多個採樣軌跡的經驗機率分布，Meta-RL 訓練的模型產生了更多樣化且更具探索性的軌跡。

泛化能力

論文展示 LAMER 訓練的模型對更困難和分佈外（Out-of-distribution）任務有更佳的泛化能力。訓練後的模型學會了平衡探索與利用，在測試時擴展效能（透過 pass@k）方面表現優於標準 RL。

據論文所知，這是首次將元強化學習框架用於 LLM Agent 訓練。總體而言，LAMER 朝著能主動行動以發現資訊並在新環境中改進決策的自主 Agent 迈出了一步。

文章原文標題：META-RL INDUCES EXPLORATION IN LANGUAGE AGENTS
文章連結：https://arxiv.org/pdf/2512.16848

LAMER：元強化學習讓語言Agent學會主動探索

相關文章推薦

分享網址