預訓練資料太差怎麼辦？Bengio團隊引入顯式貝葉斯，無梯度實現In-Context RL

單純拉長上下文並不能自動湧現強化學習能力，引入顯式貝葉斯推斷才是破局關鍵。

在 In-Context RL 的研究熱潮中，往往存在一種慣性思維，認為只要把 Transformer 做大，把上下文窗口拉長，模型就能像 AD (Algorithm Distillation) 或 DPT (Decision-Pretrained Transformer) 那樣「頓悟」出最優策略。

然而實驗結果表明，現有的 In-Context RL 方法存在顯著局限。它們本質上更接近於條件行為複製。

如果你餵給模型的是專家資料，它能模仿得很好。但如果上下文裡充斥著次優甚至隨機的軌跡（這在實際應用中才是常態），模型往往會擬合這些次優行為，從而繼承了策略偏差，難以超越演示者的水平。

近日，由 Yoshua Bengio 領銜的 Mila 實驗室團隊發布了一項新工作SPICE，這項工作並沒有在模型參數量上死磕，而是將深度集成 (Deep Ensemble)、貝葉斯推斷與 Transformer進行了優雅的結合。

SPICE 的核心洞察在於，不要把預訓練模型僅僅當作一個動作預測器，而應將其視為一個提供「價值先驗」的工具。

在測試時（Test-time），透過顯式的貝葉斯公式將這個先驗與上下文證據融合，利用 UCB（置信上界）演算法進行決策。

即便是在預訓練資料品質極差的情況下，SPICE 依然在理論上被證明具有對數級遺憾界 (Logarithmic Regret)，並在實驗中展現出顯著優於 DPT 等基準模型的效能。

論文標題：

In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior

論文連結：

https://arxiv.org/pdf/2601.03015

當In-Context RL遇到「爛資料」

目前的 In-Context RL 範式（如 DPT）通常是在大量離線軌跡上進行監督學習，目標是擬合。

這帶來了一個棘手的問題——行為策略偏差 (Behaviour-Policy Bias)。

如果預訓練資料的生成策略是次優的，或者帶有很強的雜訊，基於 MLE（最大概似估計）訓練出來的模型就會繼承這種偏差。

在推理階段，如果 Context 裡的歷史資料也是次優的，模型很難透過自身的歸納偏置去推斷出最優解，透過簡單的 Attention 機制很難無中生有地產生探索（Exploration）行為。

要想在 Test-time 實現真正的強化學習（即能夠探索並改進策略），我們需要兩個關鍵要素，而這正是現有 Transformer 架構所缺失的：

1. 對 Q 值的顯式估計：不僅僅是預測動作機率；

2. 不確定性量化：知道自己在哪裡不知道，從而驅動探索。

方法論：先驗、證據與融合

SPICE 的全稱是 Shaping Policies In-Context with Ensemble prior。它的架構並不複雜，核心在於如何優雅地處理預訓練知識和當前上下文之間的關係。

〓圖1. SPICE 訓練與推理概覽。左側為訓練階段，學習 Value Ensemble；右側為推理階段，透過 Kernel 提取證據並進行貝葉斯融合。

SPICE 的工作流可以拆解為三個步驟：

1. 訓練階段：學習價值先驗

SPICE 依然使用 Causal Transformer 作為骨幹網路（Backbone），但它的輸出頭（Head）不再是簡單的 Policy Head，而是附帶了個 Value Heads（集成學習）。

對於給定的 Query 狀態，這個頭會輸出個 Q 值估計。我們利用這些估計來建構一個高斯分佈作為先驗 (Prior)：

這裡，是先驗均值，是先驗的認知不確定性（Epistemic Uncertainty）。

關鍵細節：加權表徵塑造與貝葉斯收縮

為了讓 Transformer 的 Latent Space 更適合做值函數估計，作者設計了一個非常講究的輔助 Policy Loss：

這裡的權重是三個因子的乘積，分別對應重要性抽樣、優勢加權和認知不確定性加權：

(Importance Sampling)：修正行為策略偏差。

(Advantage)：給高優勢（High Advantage）的樣本更高權重，讓模型關注「好」的動作。

(Epistemic)：給不確定性高（集成變異數大）的區域更高權重，迫使模型去學習那些它拿不準的地方。

此外，為了保證 Value Head 輸出的分佈具有良好的校準度，作者在訓練 Value Ensemble 時還引入了貝葉斯收縮損失，在訓練階段就約束預測值向後驗均值收縮，這為測試時的貝葉斯更新打下了基礎。

2. 推理階段：提取上下文證據

在 Test-time，SPICE 不需要梯度更新。面對一段 Context（歷史互動軌跡），SPICE 將其視為證據。

由於 Context 裡的狀態可能與當前的 Query 狀態不同，直接用統計量是不行的。

SPICE 使用 Transformer 提取的 Latent Feature（而非原始狀態，因為包含了經由塑造的結構化資訊），並透過一個 Kernel 函數（如 RBF 核）來計算相似度權重：

利用這個權重，我們可以算出每個動作在當前狀態附近的「加權計數」和「加權平均目標值」：

這裡的可以是單步 Reward（Bandit 設定）或者 n-step TD Target（MDP 設定）。

3. 貝葉斯融合與決策

PICE 的破局關鍵在於，它假設 Q 值服從高斯分佈，利用高斯共軛 (Normal-Normal Conjugacy) 性質，直接獲得 Q 值的後驗分佈。

後驗的精確度（Precision，即變異數的倒數）等於先驗精確度與資料精確度之和：

後驗均值則是先驗均值和資料均值的加權組合：

其中，。

〓圖2. SPICE 詳細架構圖：展示了從 Latent Feature 到 Prior Ensemble，再結合 Kernel Evidence 生成 Posterior 的完整鏈路。

得到後驗分佈後，SPICE 線上互動時採用 Posterior-UCB 策略進行探索：

這個公式直觀地解釋了 SPICE 的行為：

如果 Context 裡沒有相關資料（），後驗回退到先驗，模型依賴預訓練知識。

如果 Context 證據充分，後驗變異數會迅速減小，均值會修正為真實觀測值，從而擺脫預訓練的偏差。

項保證了對不確定動作的持續探索。

理論保證

對於關注理論的研究者來說，SPICE 提供了一個非常嚴謹的結論。

論文證明了在 Bandits 和 Finite-Horizon MDPs 中，SPICE 的 Regret Bound 滿足：

注意看右邊兩項：

第一項是標準的遺憾界，這意味著 SPICE 具有和經典 UCB 演算法一樣的最優漸近收斂率。

第二項是常數項（Warm-start term），它取決於預訓練先驗的品質。

這意味著即便預訓練模型（先驗）存在較大偏差，它也僅僅是增加了一個常數級別的 Regret，而不會像 DPT 那樣導致 Regret 隨時間線性增長。

只要測試時有互動，SPICE 最終一定能收斂到最優策略。

實驗結果：顯著優於DPT

為了驗證「爛資料」下的適應能力，作者在 Bandits 和 Darkroom（2D 導航）環境中設計了非常苛刻的實驗條件。

特別是在 Darkroom 實驗中，預訓練資料的標籤採用 "Weak-last"設定，即標籤不是最優動作，而是隨機策略軌跡的最後一步動作。這基本上就是雜訊極大的次優資料。

1. Bandit實驗：拒絕線性Regret

〓圖3.Bandit 效能評估。SPICE 在線上設定下實現了最低的累積遺憾，而 DPT 表現出線性增長的遺憾。

從上圖可以看出，在 Online 設定下，SPICE 取得了所有學習型方法中最低的累積遺憾（Cumulative Regret），並緊密跟隨經典 UCB 演算法的表現。

相比之下，DPT 的最終遺憾值比 SPICE 高出兩個數量級，這表明 DPT 未能從微弱的日誌資料中適應，而 SPICE 真正實現了 In-Context 的策略改進。

2. 穩健性：無懼雜訊

〓圖4. 對獎勵雜訊的穩健性。隨著測試時雜訊 σ 的增加，DPT 的 Regret 居高不下，而 SPICE 依然保持穩定。

上圖結果表明，隨著測試環境獎勵雜訊的增加，SPICE、Thompson Sampling 和 UCB 的表現僅發生微小的絕對變化，保持了良好的穩健性。

反觀 DPT，其最終遺憾值始終居高不下，且對雜訊變化幾乎不敏感，進一步印證了其在次優資料訓練下的適應性缺陷。

3. MDP實驗：從零到一的質變

〓圖5. Darkroom (MDP) 實驗結果。在仅有「Weak-last」標籤的極端情況下，DPT 的回報幾乎為零，而 SPICE 能夠迅速學習並獲得高回報。

在 Darkroom 這種涉及序列決策的任務中，實驗結果顯示 SPICE 能夠迅速適應環境並獲得高回報，其遺憾曲線在短暫的熱身（Warm-up）後迅速趨於平緩。

作為對比，DPT 和 AD-BC 在這種弱監督設定下表現出近乎線性的遺憾增長，且回報幾乎為零。

這說明缺乏不確定性量化的方法在面臨「爛資料」時，難以跳出複製次優行為的陷阱。

結語

SPICE 這篇論文並沒有盲目地堆砌 Transformer 的參數，而是回歸了強化學習的本質——價值估計與不確定性量化。

它透過引入 Deep Ensemble 和貝葉斯融合，巧妙地解決了 In-Context RL 中的兩個核心難題：

1. 如何利用次優資料？把它當先驗，而不是當真理。

2. 如何實現測試時探索？用後驗不確定性驅動 UCB，而不是簡單模仿。

Algorithm 1 的偽程式碼也非常簡潔，非常適合作為後續研究的 Baseline。

〓圖6. SPICE 演算法偽程式碼。清晰展示了如何結合 Transformer 編碼與閉式貝葉斯更新。

當然，SPICE 也有其局限性。目前它依賴於 Kernel 函數來衡量狀態相似度，在高維或部分可觀測（POMDP）環境中，設計一個好的 Kernel 依然具有挑戰性。

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平台上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確系個人原創作品，未曾在公開渠道發表，如為其他平台已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章品質階梯制結算

📬 投稿通道：

• 投稿郵箱：hr@paperweekly.site

• 來稿請備註即時聯繫方式（微信），以便我們在稿件選用的第一時間聯繫作者

• 您也可以直接添加小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

預訓練資料太差怎麼辦？Bengio團隊引入顯式貝葉斯，無梯度實現In-Context RL

單純拉長上下文並不能自動湧現強化學習能力，引入顯式貝葉斯推斷才是破局關鍵。

1. Bandit實驗：拒絕線性Regret

2. 穩健性：無懼雜訊

3. MDP實驗：從零到一的質變

相關文章推薦

分享網址