單純拉長上下文並不能自動湧現強化學習能力,引入顯式貝葉斯推斷才是破局關鍵。
單純拉長上下文並不能自動湧現強化學習能力,引入顯式貝葉斯推斷才是破局關鍵。
在 In-Context RL 的研究熱潮中,往往存在一種慣性思維,認為只要把 Transformer 做大,把上下文窗口拉長,模型就能像 AD (Algorithm Distillation) 或 DPT (Decision-Pretrained Transformer) 那樣「頓悟」出最優策略。
然而實驗結果表明,現有的 In-Context RL 方法存在顯著局限。它們本質上更接近於條件行為複製。
如果你餵給模型的是專家資料,它能模仿得很好。但如果上下文裡充斥著次優甚至隨機的軌跡(這在實際應用中才是常態),模型往往會擬合這些次優行為,從而繼承了策略偏差,難以超越演示者的水平。
近日,由 Yoshua Bengio 領銜的 Mila 實驗室團隊發布了一項新工作SPICE,這項工作並沒有在模型參數量上死磕,而是將深度集成 (Deep Ensemble)、貝葉斯推斷與 Transformer進行了優雅的結合。
SPICE 的核心洞察在於,不要把預訓練模型僅僅當作一個動作預測器,而應將其視為一個提供「價值先驗」的工具。
在測試時(Test-time),透過顯式的貝葉斯公式將這個先驗與上下文證據融合,利用 UCB(置信上界)演算法進行決策。
即便是在預訓練資料品質極差的情況下,SPICE 依然在理論上被證明具有對數級遺憾界 (Logarithmic Regret),並在實驗中展現出顯著優於 DPT 等基準模型的效能。
論文標題:
In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior
論文連結:
https://arxiv.org/pdf/2601.03015
當In-Context RL遇到「爛資料」
目前的 In-Context RL 範式(如 DPT)通常是在大量離線軌跡上進行監督學習,目標是擬合 。
這帶來了一個棘手的問題——行為策略偏差 (Behaviour-Policy Bias)。
如果預訓練資料的生成策略是次優的,或者帶有很強的雜訊,基於 MLE(最大概似估計)訓練出來的模型就會繼承這種偏差。
在推理階段,如果 Context 裡的歷史資料也是次優的,模型很難透過自身的歸納偏置去推斷出最優解,透過簡單的 Attention 機制很難無中生有地產生探索(Exploration)行為。
要想在 Test-time 實現真正的強化學習(即能夠探索並改進策略),我們需要兩個關鍵要素,而這正是現有 Transformer 架構所缺失的:
1. 對 Q 值的顯式估計:不僅僅是預測動作機率;
2. 不確定性量化:知道自己在哪裡不知道,從而驅動探索。
方法論:先驗、證據與融合
SPICE 的全稱是 Shaping Policies In-Context with Ensemble prior。它的架構並不複雜,核心在於如何優雅地處理預訓練知識和當前上下文之間的關係。
SPICE 的工作流可以拆解為三個步驟:
1. 訓練階段:學習價值先驗
SPICE 依然使用 Causal Transformer 作為骨幹網路(Backbone),但它的輸出頭(Head)不再是簡單的 Policy Head,而是附帶了 個 Value Heads(集成學習)。
對於給定的 Query 狀態 ,這 個頭會輸出 個 Q 值估計。我們利用這些估計來建構一個高斯分佈作為先驗 (Prior):
這裡, 是先驗均值, 是先驗的認知不確定性(Epistemic Uncertainty)。
關鍵細節:加權表徵塑造與貝葉斯收縮
為了讓 Transformer 的 Latent Space 更適合做值函數估計,作者設計了一個非常講究的輔助 Policy Loss:
這裡的權重 是三個因子的乘積,分別對應重要性抽樣、優勢加權和認知不確定性加權:
(Importance Sampling):修正行為策略偏差。
(Advantage):給高優勢(High Advantage)的樣本更高權重,讓模型關注「好」的動作。
(Epistemic):給不確定性高(集成變異數大)的區域更高權重,迫使模型去學習那些它拿不準的地方。
此外,為了保證 Value Head 輸出的分佈具有良好的校準度,作者在訓練 Value Ensemble 時還引入了貝葉斯收縮損失,在訓練階段就約束預測值向後驗均值收縮,這為測試時的貝葉斯更新打下了基礎。
2. 推理階段:提取上下文證據
在 Test-time,SPICE 不需要梯度更新。面對一段 Context(歷史互動軌跡),SPICE 將其視為證據。
由於 Context 裡的狀態 可能與當前的 Query 狀態 不同,直接用統計量是不行的。
SPICE 使用 Transformer 提取的 Latent Feature(而非原始狀態 ,因為 包含了經由 塑造的結構化資訊),並透過一個 Kernel 函數(如 RBF 核)來計算相似度權重:
利用這個權重,我們可以算出每個動作 在當前狀態附近的「加權計數」 和「加權平均目標值」 :
這裡的 可以是單步 Reward(Bandit 設定)或者 n-step TD Target(MDP 設定)。
3. 貝葉斯融合與決策
PICE 的破局關鍵在於,它假設 Q 值服從高斯分佈,利用高斯共軛 (Normal-Normal Conjugacy) 性質,直接獲得 Q 值的後驗分佈。
後驗的精確度(Precision,即變異數的倒數)等於先驗精確度與資料精確度之和:
後驗均值則是先驗均值和資料均值的加權組合:
其中 ,。
得到後驗分佈 後,SPICE 線上互動時採用 Posterior-UCB 策略進行探索:
這個公式直觀地解釋了 SPICE 的行為:
如果 Context 裡沒有相關資料(),後驗回退到先驗,模型依賴預訓練知識。
如果 Context 證據充分,後驗變異數 會迅速減小,均值會修正為真實觀測值,從而擺脫預訓練的偏差。
項保證了對不確定動作的持續探索。
理論保證
對於關注理論的研究者來說,SPICE 提供了一個非常嚴謹的結論。
論文證明了在 Bandits 和 Finite-Horizon MDPs 中,SPICE 的 Regret Bound 滿足:
注意看右邊兩項:
第一項是標準的 遺憾界,這意味著 SPICE 具有和經典 UCB 演算法一樣的最優漸近收斂率。
第二項是常數項(Warm-start term),它取決於預訓練先驗的品質 。
這意味著即便預訓練模型(先驗)存在較大偏差,它也僅僅是增加了一個常數級別的 Regret,而不會像 DPT 那樣導致 Regret 隨時間線性增長。
只要測試時有互動,SPICE 最終一定能收斂到最優策略。
實驗結果:顯著優於DPT
為了驗證「爛資料」下的適應能力,作者在 Bandits 和 Darkroom(2D 導航)環境中設計了非常苛刻的實驗條件。
特別是在 Darkroom 實驗中,預訓練資料的標籤採用 "Weak-last"設定,即標籤不是最優動作,而是隨機策略軌跡的最後一步動作。這基本上就是雜訊極大的次優資料。
1. Bandit實驗:拒絕線性Regret
從上圖可以看出,在 Online 設定下,SPICE 取得了所有學習型方法中最低的累積遺憾(Cumulative Regret),並緊密跟隨經典 UCB 演算法的表現。
相比之下,DPT 的最終遺憾值比 SPICE 高出兩個數量級,這表明 DPT 未能從微弱的日誌資料中適應,而 SPICE 真正實現了 In-Context 的策略改進。
2. 穩健性:無懼雜訊
上圖結果表明,隨著測試環境獎勵雜訊的增加,SPICE、Thompson Sampling 和 UCB 的表現僅發生微小的絕對變化,保持了良好的穩健性。
反觀 DPT,其最終遺憾值始終居高不下,且對雜訊變化幾乎不敏感,進一步印證了其在次優資料訓練下的適應性缺陷。
3. MDP實驗:從零到一的質變
在 Darkroom 這種涉及序列決策的任務中,實驗結果顯示 SPICE 能夠迅速適應環境並獲得高回報,其遺憾曲線在短暫的熱身(Warm-up)後迅速趨於平緩。
作為對比,DPT 和 AD-BC 在這種弱監督設定下表現出近乎線性的遺憾增長,且回報幾乎為零。
這說明缺乏不確定性量化的方法在面臨「爛資料」時,難以跳出複製次優行為的陷阱。
結語
SPICE 這篇論文並沒有盲目地堆砌 Transformer 的參數,而是回歸了強化學習的本質——價值估計與不確定性量化。
它透過引入 Deep Ensemble 和貝葉斯融合,巧妙地解決了 In-Context RL 中的兩個核心難題:
1. 如何利用次優資料?把它當先驗,而不是當真理。
2. 如何實現測試時探索?用後驗不確定性驅動 UCB,而不是簡單模仿。
Algorithm 1 的偽程式碼也非常簡潔,非常適合作為後續研究的 Baseline。
當然,SPICE 也有其局限性。目前它依賴於 Kernel 函數來衡量狀態相似度,在高維或部分可觀測(POMDP)環境中,設計一個好的 Kernel 依然具有挑戰性。
更多閱讀
#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確系個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章品質階梯制結算
📬 投稿通道:
• 投稿郵箱:hr@paperweekly.site
• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者
• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點擊「關注」訂閱我們的專欄吧