預訓練資料太差怎麼辦?Bengio團隊引入顯式貝葉斯,無梯度實現In-Context RL

圖片

單純拉長上下文並不能自動湧現強化學習能力,引入顯式貝葉斯推斷才是破局關鍵。

In-Context RL 的研究熱潮中,往往存在一種慣性思維,認為只要把 Transformer 做大,把上下文窗口拉長,模型就能像 AD (Algorithm Distillation) 或 DPT (Decision-Pretrained Transformer) 那樣「頓悟」出最優策略。

然而實驗結果表明,現有的 In-Context RL 方法存在顯著局限。它們本質上更接近於條件行為複製

如果你餵給模型的是專家資料,它能模仿得很好。但如果上下文裡充斥著次優甚至隨機的軌跡(這在實際應用中才是常態),模型往往會擬合這些次優行為,從而繼承了策略偏差,難以超越演示者的水平。

近日,由 Yoshua Bengio 領銜的 Mila 實驗室團隊發布了一項新工作SPICE,這項工作並沒有在模型參數量上死磕,而是將深度集成 (Deep Ensemble)貝葉斯推斷與 Transformer進行了優雅的結合。

SPICE 的核心洞察在於,不要把預訓練模型僅僅當作一個動作預測器,而應將其視為一個提供「價值先驗」的工具。

在測試時(Test-time),透過顯式的貝葉斯公式將這個先驗與上下文證據融合,利用 UCB(置信上界)演算法進行決策。

即便是在預訓練資料品質極差的情況下,SPICE 依然在理論上被證明具有對數級遺憾界 (Logarithmic Regret),並在實驗中展現出顯著優於 DPT 等基準模型的效能。

圖片

論文標題:

In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior

論文連結:

https://arxiv.org/pdf/2601.03015

圖片

當In-Context RL遇到「爛資料」

目前的 In-Context RL 範式(如 DPT)通常是在大量離線軌跡上進行監督學習,目標是擬合 

這帶來了一個棘手的問題——行為策略偏差 (Behaviour-Policy Bias)

如果預訓練資料的生成策略是次優的,或者帶有很強的雜訊,基於 MLE(最大概似估計)訓練出來的模型就會繼承這種偏差。

在推理階段,如果 Context 裡的歷史資料也是次優的,模型很難透過自身的歸納偏置去推斷出最優解,透過簡單的 Attention 機制很難無中生有地產生探索(Exploration)行為。

要想在 Test-time 實現真正的強化學習(即能夠探索並改進策略),我們需要兩個關鍵要素,而這正是現有 Transformer 架構所缺失的:

1. 對 Q 值的顯式估計:不僅僅是預測動作機率;

2. 不確定性量化:知道自己在哪裡不知道,從而驅動探索。

圖片

方法論:先驗、證據與融合

SPICE 的全稱是 Shaping Policies In-Context with Ensemble prior。它的架構並不複雜,核心在於如何優雅地處理預訓練知識當前上下文之間的關係。

圖片
圖1. SPICE 訓練與推理概覽。左側為訓練階段,學習 Value Ensemble;右側為推理階段,透過 Kernel 提取證據並進行貝葉斯融合。

SPICE 的工作流可以拆解為三個步驟:

1. 訓練階段:學習價值先驗

SPICE 依然使用 Causal Transformer 作為骨幹網路(Backbone),但它的輸出頭(Head)不再是簡單的 Policy Head,而是附帶了  個 Value Heads(集成學習)。

對於給定的 Query 狀態 ,這  個頭會輸出  個 Q 值估計。我們利用這些估計來建構一個高斯分佈作為先驗 (Prior)

圖片

這裡, 是先驗均值, 是先驗的認知不確定性(Epistemic Uncertainty)。

關鍵細節:加權表徵塑造與貝葉斯收縮

為了讓 Transformer 的 Latent Space 更適合做值函數估計,作者設計了一個非常講究的輔助 Policy Loss:

圖片

這裡的權重  是三個因子的乘積,分別對應重要性抽樣、優勢加權和認知不確定性加權:

圖片

(Importance Sampling):修正行為策略偏差。

(Advantage):給高優勢(High Advantage)的樣本更高權重,讓模型關注「好」的動作。

 (Epistemic):給不確定性高(集成變異數大)的區域更高權重,迫使模型去學習那些它拿不準的地方。

此外,為了保證 Value Head 輸出的分佈具有良好的校準度,作者在訓練 Value Ensemble 時還引入了貝葉斯收縮損失,在訓練階段就約束預測值向後驗均值收縮,這為測試時的貝葉斯更新打下了基礎。

2. 推理階段:提取上下文證據

在 Test-time,SPICE 不需要梯度更新。面對一段 Context(歷史互動軌跡),SPICE 將其視為證據

由於 Context 裡的狀態  可能與當前的 Query 狀態  不同,直接用統計量是不行的。

SPICE 使用 Transformer 提取的 Latent Feature(而非原始狀態 ,因為  包含了經由  塑造的結構化資訊),並透過一個 Kernel 函數(如 RBF 核)來計算相似度權重:

圖片

利用這個權重,我們可以算出每個動作  在當前狀態附近的「加權計數」  和「加權平均目標值」 

圖片

這裡的  可以是單步 Reward(Bandit 設定)或者 n-step TD Target(MDP 設定)。

3. 貝葉斯融合與決策

PICE 的破局關鍵在於,它假設 Q 值服從高斯分佈,利用高斯共軛 (Normal-Normal Conjugacy) 性質,直接獲得 Q 值的後驗分佈

後驗的精確度(Precision,即變異數的倒數)等於先驗精確度與資料精確度之和:

圖片

後驗均值則是先驗均值和資料均值的加權組合:

圖片

其中 

圖片
圖2. SPICE 詳細架構圖:展示了從 Latent Feature 到 Prior Ensemble,再結合 Kernel Evidence 生成 Posterior 的完整鏈路。

得到後驗分佈  後,SPICE 線上互動時採用 Posterior-UCB 策略進行探索:

圖片

這個公式直觀地解釋了 SPICE 的行為:

如果 Context 裡沒有相關資料(),後驗回退到先驗,模型依賴預訓練知識。

如果 Context 證據充分,後驗變異數  會迅速減小,均值會修正為真實觀測值,從而擺脫預訓練的偏差。

 項保證了對不確定動作的持續探索。

圖片

理論保證

對於關注理論的研究者來說,SPICE 提供了一個非常嚴謹的結論。

論文證明了在 Bandits 和 Finite-Horizon MDPs 中,SPICE 的 Regret Bound 滿足:

圖片

注意看右邊兩項:

第一項是標準的  遺憾界,這意味著 SPICE 具有和經典 UCB 演算法一樣的最優漸近收斂率。

第二項是常數項(Warm-start term),它取決於預訓練先驗的品質 

這意味著即便預訓練模型(先驗)存在較大偏差,它也僅僅是增加了一個常數級別的 Regret,而不會像 DPT 那樣導致 Regret 隨時間線性增長。

只要測試時有互動,SPICE 最終一定能收斂到最優策略。

圖片

實驗結果:顯著優於DPT

為了驗證「爛資料」下的適應能力,作者在 Bandits 和 Darkroom(2D 導航)環境中設計了非常苛刻的實驗條件。

特別是在 Darkroom 實驗中,預訓練資料的標籤採用 "Weak-last"設定,即標籤不是最優動作,而是隨機策略軌跡的最後一步動作。這基本上就是雜訊極大的次優資料。

1. Bandit實驗:拒絕線性Regret

圖片
圖3.Bandit 效能評估。SPICE 在線上設定下實現了最低的累積遺憾,而 DPT 表現出線性增長的遺憾。

從上圖可以看出,在 Online 設定下,SPICE 取得了所有學習型方法中最低的累積遺憾(Cumulative Regret),並緊密跟隨經典 UCB 演算法的表現。

相比之下,DPT 的最終遺憾值比 SPICE 高出兩個數量級,這表明 DPT 未能從微弱的日誌資料中適應,而 SPICE 真正實現了 In-Context 的策略改進。

2. 穩健性:無懼雜訊

圖片
圖4. 對獎勵雜訊的穩健性。隨著測試時雜訊 σ 的增加,DPT 的 Regret 居高不下,而 SPICE 依然保持穩定。

結果表明,隨著測試環境獎勵雜訊的增加,SPICE、Thompson Sampling 和 UCB 的表現僅發生微小的絕對變化,保持了良好的穩健性。

反觀 DPT,其最終遺憾值始終居高不下,且對雜訊變化幾乎不敏感,進一步印證了其在次優資料訓練下的適應性缺陷。

3. MDP實驗:從零到一的質變

圖片
圖5. Darkroom (MDP) 實驗結果。在仅有「Weak-last」標籤的極端情況下,DPT 的回報幾乎為零,而 SPICE 能夠迅速學習並獲得高回報。

在 Darkroom 這種涉及序列決策的任務中,實驗結果顯示 SPICE 能夠迅速適應環境並獲得高回報,其遺憾曲線在短暫的熱身(Warm-up)後迅速趨於平緩。

作為對比,DPT 和 AD-BC 在這種弱監督設定下表現出近乎線性的遺憾增長,且回報幾乎為零。

這說明缺乏不確定性量化的方法在面臨「爛資料」時,難以跳出複製次優行為的陷阱。

圖片

結語

SPICE 這篇論文並沒有盲目地堆砌 Transformer 的參數,而是回歸了強化學習的本質——價值估計與不確定性量化

它透過引入 Deep Ensemble 和貝葉斯融合,巧妙地解決了 In-Context RL 中的兩個核心難題:

1. 如何利用次優資料?把它當先驗,而不是當真理。

2. 如何實現測試時探索?用後驗不確定性驅動 UCB,而不是簡單模仿。

Algorithm 1 的偽程式碼也非常簡潔,非常適合作為後續研究的 Baseline。

圖片
圖6. SPICE 演算法偽程式碼。清晰展示了如何結合 Transformer 編碼與閉式貝葉斯更新。

當然,SPICE 也有其局限性。目前它依賴於 Kernel 函數來衡量狀態相似度,在高維或部分可觀測(POMDP)環境中,設計一個好的 Kernel 依然具有挑戰性

更多閱讀

圖片
圖片
圖片
圖片

#投 稿 通 道#

 讓你的文字被更多人看到 

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝 稿件基本要求:

• 文章確系個人原創作品,未曾在公開渠道發表,如為其他平台已發表或待發表的文章,請明確標註 

• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章品質階梯制結算

📬 投稿通道:

• 投稿郵箱:hr@paperweekly.site 

• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者

• 您也可以直接添加小編微信(pwbot02)快速投稿,備註:姓名-投稿

圖片

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.