神作！MIT 與 Google 訓練出能進行嚴格貝氏推論的 LLM 大模型

一句話概括：現有的語言模型普遍缺乏在互動中做「機率排除法」的能力，別人拒絕了它的推薦，它下次還是無法準確定位用戶需求。本文通過讓模型去模仿一個「基於不確定性不斷更新信念」的貝氏助手，成功教會了它如何在腦海中追蹤機率分佈。令人驚喜的是，學成後的神經網絡模型在面對經常「自相矛盾」的真實人類時，容錯表現甚至超越了原本的完美數學公式。（原論文題目見文末，點擊閱讀原文可直接跳轉至原文連結，Published on arXiv on 15 Jan 2026, by MIT & Google DeepMind）

第一階段：識別核心概念

論文的動機分析

開發 AI Agent（智慧體）時經常會遇到一個痛點：大語言模型（LLM）究竟能否像人一樣，透過多輪對話不斷修正自己的認知？想像一下，有一位專屬的 AI 訂票助手。第一次讓它訂機票，它推薦了最便宜的紅眼航班，被拒絕後，選了白天起飛但稍貴一點的航班。作為人類助手，這時候心裡就會建立偏好模型：「老闆可能更看重時間而不是絕對低價」。為了讓大模型成為合格的 Agent，它們必須具備「機率推理」和「信念更新」的能力。也就是說，它們需要在腦海中為用戶的偏好建立一個隱式的「世界模型」，並隨著每次互動不斷調整猜測。然而，目前拿來即用的開源或閉源大模型，在這方面做得極其糟糕，經常在第一輪對話後就停止更新認知，無法從後續的互動中吸取教訓。這篇論文正是為了解決模型無法在多輪互動中有效更新機率信念的根本痛點。

論文主要貢獻點分析

核心創新點：提出了一種名為「貝氏教學（Bayesian Teaching）」的微調策略。沒有直接把最終正確答案餵給模型，而是讓模型去模仿一個完美的機率推理機器（貝氏助手）的思考過程。
關鍵技術支撐：利用監督微調（SFT）技術，將貝氏推論這種嚴謹的數學邏輯，轉化為大模型可以學習的自然語言對話軌跡（文本數據）。
顯著性結果與重大意義：被貝氏教學微調過的小模型，不僅在當前任務上學會了根據反饋更新認知，這種能力還能泛化（Zero-shot）到完全沒見過的新任務中（比如從訂機票跨界到訂酒店，甚至真實的電商購物）。在面對真實人類（人類經常會自相矛盾、手滑選錯）時，學成歸來的大模型表現得比嚴格按數學公式計算的完美貝氏助手還要好，展現出了神經網絡特有的魯棒性。

理解難點識別

理解本文的關鍵在於貝氏信念更新（Bayesian Belief Updating）、Oracle 教學（上帝視角教學）與貝氏教學的區別。其中最具挑戰性的部分是理解為什麼教模型去模仿一個經常會猜錯但充滿不確定性的貝氏助手，其效果反而比教它模仿一個永遠給出正確答案的 Oracle（先知）要好得多。重點需要解釋的核心概念是：貝氏推論過程是如何體現在對話序列中的，以及大模型究竟從中學到了什麼機制。

概念依賴關係

理解這些核心概念的最佳切入點是：首先搞懂人類或數學模型是如何在多輪互動中做機率排除法（貝氏推論），然後再看大模型是如何透過閱讀別人做排除法的聊天記錄來掌握這項底層技能的。這兩者構成了方法的設計基礎。

第二階段：深入解釋核心概念

設計生活化比喻

假設要培訓一個菜鳥警察（大語言模型）去尋找連環盜竊案的嫌疑人特徵（推斷用戶偏好）。有兩種培訓方案：

方案 A（Oracle 教學或上帝視角）：派一個擁有「時光機」的超人帶他。超人穿越到未來看了監控，直接告訴菜鳥抓穿紅衣服的人。菜鳥跟著抓了幾次，但他只學會了抓特定的人，根本沒學會怎麼破案。

方案 B（貝氏教學）：派一位老刑警（貝氏助手）帶他。老刑警沒有超能力，但他有個筆記本（機率分佈）。一開始老刑警也不知道是誰，他看著腳印推測嫌疑人大概率是個男的，所以部分選項機率上升。如果後續線索排除了某個特徵，老刑警會馬上劃掉重猜。雖然老刑警一開始經常抓錯人，但菜鳥跟在他身邊，學會了「收集線索到改變嫌疑機率再到做出合理推斷」的破案邏輯。

建立比喻與實際技術的對應關係

嫌疑人的特徵與作案動機：對應用戶的內在獎勵函數（也就是用戶偏好）。
作案留下的線索：對應模型提供的航班選項以及用戶的實際選擇。
老刑警筆記本上的嫌疑人名單：對應模型對用戶偏好的後驗機率分佈。
老刑警隨著線索劃掉名字的動作：對應貝氏公式的更新過程。

這種對應關係極其合理，因為大模型需要學習的正是這種「根據局部不確定信息逐步收斂到真實分佈」的動態過程，而不是死記硬背最終的正確結果。

深入技術細節

帶徒弟的老刑警（貝氏助手）是嚴格按照數學公式來更新它的筆記本的。核心數學原理解析如下：

符號替換版本：第 i+1 輪互動後某個偏好的後驗可能性 = 該偏好下選擇出特定航班的似然機率 / 第 i 輪互動後該偏好的先驗可能性 × 該選項在所有可能偏好下被選中的總機率

老刑警（貝氏助手）在每次用戶做出選擇後，都會使用上述公式更新它對用戶偏好（θ）的機率分佈。一開始它對所有偏好一視同仁（均勻先驗）。如果用戶的選擇與某種偏好相符，那麼這種偏好的機率就會上升；反之就會下降。隨後，它需要做出實際決策：

符號替換版本：用戶最終的選擇 = 在當前選項集合中，能讓該假設偏好下的獎勵值最大化的那個選項

根據目前機率最大的偏好，貝氏助手去給用戶推薦下一個航班。

將技術細節與比喻相互映射

在大模型的 Transformer 架構裡，其本質是在預測下一個 Token（詞）。當它閱讀老刑警的互動記錄時，老刑警早期的合理猜測（哪怕是錯的）反映了當前線索下的最佳機率分佈。大模型為了準確預測老刑警接下來會說什麼，它的內部表徵（隱層狀態）被迫學會了追蹤多輪對話中的不確定性，隱式地維持了一個類似「老刑警筆記本」的機率跟蹤器。

如果只給大模型看時光機超人（Oracle）的絕對正確答案，由於這些答案基於大模型當前還看不到的未來信息（全域偏好），大模型在微調時根本無法建立輸入和輸出之間的因果邏輯，最後只能死記硬背，一旦換個場景就徹底失效。貝氏助手在早期因為信息不足必然會做出不完美的推薦，但正是這種包含著不確定性和逐步收斂特性的互動軌跡，成為了大模型最好的教材。

總結

透過「老刑警帶徒弟」的貝氏教學，大模型學到的不是某個具體題目的答案，而是在信息不全時保持合理懷疑，在獲得新證據後嚴謹更新認知的機率推理元技能。這些數學公式背後的的核心思想，可以被精煉地總結為：今天的後驗機率，就是明天的先驗機率；大膽假設，用新證據小心求證。

第三階段：詳細說明流程步驟

構建虛擬用戶與環境機制
輸入：預先定義好的航班特徵庫（包含起飛時間、時長、中轉次數、價格等維度參數）。
處理：隨機抽取形成每次互動的 3 個候補航班選項集合（O）。系統在後台定義 624 種虛擬用戶，每個用戶持有一個固定的偏好向量（例如極度在意價格而不在意時長）。
輸出：特定場景下的選項集以及用戶的真實偏好（該真實偏好僅作為後台計算基準驗證，不對外暴露）。該輸出將直接作為下一流程的數據源。
生成貝氏教學日誌（構建微調數據集）
輸入：上一流程生成的選項集，以及對應的虛擬用戶特徵參數。
處理：引入嚴格按照貝氏公式運算的算法腳本（貝氏助手），讓其與虛擬用戶進行連續互動。在第一輪互動中，助手給出 3 個選項，根據均勻機率分佈進行首次推薦。用戶腳本根據自身偏好向量選出最優項並給出反饋（例如「你推薦錯了，我選 B」）。在後續互動中，助手收到反饋後，立刻運用貝氏公式更新內部的機率分佈矩陣，基於更新後的後驗機率，對新生成的 3 個選項進行推薦評估。如此循環直至 5 輪結束。
輸出：成千上萬條包含「選項呈現到助手推薦再到用戶真實反饋」的 5 輪對話純文本記錄。這就是用於大模型微調的「貝氏教學數據集」。
實施大模型監督微調（SFT）
輸入：上一階段產出的大規模貝氏教學日誌文本，以及一個基礎開源大語言模型（如 Gemma 2 9B）。
處理：採用標準的語言模型自回歸訓練目標（Next-token prediction）。將對話上下文作為模型的輸入，計算模型預測分佈與數據集中貝氏助手真實回覆之間的交叉熵損失。透過反向傳播算法更新模型的所有參數（全量微調）或部分參數（如 LoRA 參數高效微調）。
輸出：具備機率推理與信念更新能力的微調後大語言模型（Bayesian LLM）。
獨立分支評估驗證機制
輸入：全新生成的、模型在訓練階段絕對沒見過的新領域測試選項集。
處理：在測試互動的每一輪結束後，系統會開闢一個平行評估分支。在這個分支裡，系統給模型輸入 100 組全新的選項數據，要求模型基於當前輪次積累的認知做出直接預測，且全過程不給予任何正確答案的反饋。評估完成後記錄準確率，隨後廢棄該分支，主幹對話根據真實用戶反饋繼續進入下一輪。
輸出：模型在第 1 輪到第 5 輪互動過程中，針對獨立測試集的預測準確率動態變化曲線。

第四階段：實驗設計與驗證分析

主實驗設計解讀

論文的核⼼主張是透過貝氏教學能讓 LLM 獲得機率推理和動態更新信念的能力。作者在主實驗中設置了幾個關鍵的基線方法進行對比：未經任何微調的原生模型（如 GPT-4、Gemini 等 Original LLMs）、使用上帝視角絕對正確數據微調的模型（Oracle LLM），以及純數學腳本（Bayesian Assistant，作為理論性能天花板）。

在評價指標方面，重點觀測的是準確率隨互動輪次變化的動態曲線。實驗結果顯示，原生模型的曲線幾乎是水平的（從第一輪到第五輪都在 37% 左右徘徊），證明其無法利用互動歷史更新認知。而經過貝氏教學微調的模型，起點顯著提升，且曲線呈現出持續向上的攀升趨勢，緊緊貼合數學計算的天花板。這直接有力地支撐了論文的核⼼貢獻。

消融實驗分析

作者設計了針對性的控制變量實驗來打消對機制的疑慮：是否存在一種可能，因為貝氏助手前期經常「猜錯」，這種「噪音」僅僅是起到了正規化防過擬合的作用？

為了驗證這一點，作者故意在全對的 Oracle 數據里加入了等量的隨機錯誤噪音（Gemma Oracle with Noise）。實驗結果表明，添加了隨機噪音的 Oracle 模型表現極差，性能提升微乎其微。這就從反面定量地證明了：毫無邏輯的瞎猜是無效的，貝氏助手那種基於機率分佈的、有內在邏輯的試錯，才是模型真正學到推理能力的不可替代的核心來源。

深度/創新性實驗剖析

模型顯式機率表達能力實驗（Belief Elicitation）
實驗目的：探究模型到底是在隱式瞎蒙，還是真在內部建立了一個機率分佈表徵。
實驗設計：在對話過程中強行詢問大模型，讓它用 1 到 5 分評價特定用戶偏好存在的機率（要求輸出具體百分比）。隨後，研究者用模型「口述」的機率代入數學公式去推導其應該選擇的選項。
實驗結論：用模型口述信念推導出的預測準確率，與模型直接做選擇的準確率高度一致，且遠高於原生模型。這驚人地揭示了大模型不僅能隱式做決策，還能顯式地表達出內部的機率分佈表徵。
人類噪聲對抗實驗（魯棒性壓力測試）
實驗目的：驗證完美的數學腳本在面對真實人類不規範行為時的表現。
實驗設計：引入真實人類參與者。人類用戶的特點是經常自相矛盾，比如嘴上偏好低價，但實際操作中可能因其他因素選擇了高價航班（存在大量噪聲）。
實驗結論：在這個充滿噪聲的真實環境裡，微調後的神經網絡模型（Bayesian LLMs）竟然戰勝了純數學計算的 Bayesian Assistant。這揭示了該方法的一個深層特性：純符號數學模型對異常值極度敏感，而大語言模型在吸收了貝氏思想後，反而兼具了邏輯推理能力和對人類非理性行為的強大容錯率。
信息增益敏感性探究實驗
實驗目的：探究模型是否能識別出哪些線索具備更高的信息價值。
實驗設計：作者改變了隨機給選項的策略，故意向模型提供兩類極端選項集：一類是信息量極大的（兩個航班只有一個特徵不同，一選就能確定偏好），另一類是信息量極小的。
實驗結論：微調後的模型表現出了與最優貝氏推理器高度正相關的特性，提供的信息越關鍵，其準確率上升的斜率越陡峭。原生模型則對信息量差異完全脫敏。該發現深層證明了模型真正掌握了基於信息增益進行機率排除的本質機理。

本文題目：Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models

論文原文連結：https://arxiv.org/