貝氏沒想到的事——一個牧師的賭博公式，如何成為 AI 的第一性原理

1763 年，一個英國牧師的遺稿裡藏著一條公式。263 年後，這條公式成了 GPT 訓練的數學骨架：先驗＝預訓練，似然＝數據，後驗＝微調。貝氏定理不只是一個公式——它是一種「帶著舊知識擁抱新證據」的思維方式。而這正是 AI 學習的方式。

一個牧師的未完成論文

1761 年，英國小鎮坦布里奇韋爾斯（Tunbridge Wells），一位 59 歲的長老會牧師去世了。

他叫托馬斯·貝氏（Thomas Bayes）。

他的一生平淡無奇——在一個小教堂佈道，偶爾研究數學，沒有發表過什麼重要論文。去世後，他的朋友理察·普萊斯（Richard Price）在整理遺物時發現了一篇未完成的手稿。

普萊斯讀完後意識到：這篇手稿可能改變人類理解世界的方式。

1763 年，普萊斯把這篇遺稿整理發表在英國皇家學會的 Philosophical Transactions 上。標題很樸素：“An Essay towards solving a Problem in the Doctrine of Chances”——《論解決機率論中一個問題的嘗試》。

263 年後，這篇論文裡的核心思想成了 GPT、BERT、Stable Diffusion 等所有現代 AI 的數學骨架之一。

貝氏沒有想到的事：他為了解決賭博問題推導出的公式，最終教會了機器如何學習。

一、一個反直覺的問題

在講貝氏定理之前，讓我先給你出一道題。

醫學檢測悖論

有一種罕見病，每 1000 人中只有 1 人患病（患病率 0.1%）。

現在有一種檢測方法，準確率很高：

如果你真的有病，檢測顯示陽性的機率是 99%（敏感度）
如果你沒有病，檢測顯示陰性的機率是 99%（特異度）

你去檢測，結果顯示陽性。

問：你真正患病的機率是多少？

大多數人的第一反應：「99%！檢測那麼準！」

直覺告訴你幾乎一定患病了。

但正確答案是：大約 9%。

你沒有看錯。即使檢測準確率高達 99%，陽性結果只意味著你有大約 十分之一 的機率真正患病。

為什麼？讓我們算一算。

算給你看：10000 人中發生了什麼

10000 人參加檢測
│
├── 10 人真有病（患病率 0.1%）
│    ├── 9.9 人 → 檢測陽性（真陽性，敏感度 99%）
│    └── 0.1 人 → 檢測陰性（漏診）
│
└── 9990 人沒有病
      ├── 99.9 人 → 檢測陽性（偽陽性，誤報率 1%）
      └── 9890.1 人 → 檢測陰性（正確排除）

所有陽性結果 = 9.9 + 99.9 = 109.8 人
其中真正患病的 = 9.9 人
真正患病的機率 = 9.9 / 109.8 ≈ 9.0%

關鍵洞察： 雖然偽陽性率只有 1%，但因為沒病的人（9990 人）遠遠多於有病的人（10 人），1% 的 9990 人（≈100 人）仍然遠超真正患病的 10 人。

你的直覺出了什麼問題？

你忽略了一個關鍵資訊——患病率本身就很低（0.1%）。在你做檢測之前，你患病的機率就已經很低了。檢測陽性只是在這個很低的基礎上「升級」了機率，但沒有把它翻轉到 99%。

這就是貝氏定理要解決的核心問題：當你獲得新證據時，你原來的信念應該怎樣更新？

醫學檢測悖論的貝氏拆解：先驗 × 似然 → 後驗

二、貝氏定理——六個字就夠了

貝氏定理

                P(B|A) · P(A)
P(A|B) = ─────────────────
                   P(B)

翻譯成白話：

              證據的力量 × 舊信念
新信念 = ───────────────────────
              證據本身有多常見

用一個生活場景，把三個角色講透

公式看起來嚇人，但其實你每天都在用它——只是你的大腦自動幫你算了。讓我用一個例子把三個角色講清楚。

場景：早上醒來，你聽到窗外有「嘩嘩」的聲音。外面在下雨嗎？

三個角色，一個故事

① 先驗（Prior）—— 在聽到聲音之前，你覺得下雨的可能性有多大？

你昨晚看了天氣預報，說今天晴天。所以你心裡覺得：「下雨大概 10% 的可能吧。」

這就是先驗——在看到任何證據之前，你根據已有知識做出的判斷。

② 似然（Likelihood）—— 如果真的在下雨，你聽到「嘩嘩」聲的可能性有多大？

如果外面真的在下雨，你聽到嘩嘩聲的機率很高——比如 90%（也有可能雨很小你聽不到）。

但注意：如果外面沒下雨，你也可能聽到嘩嘩聲——鄰居在澆花、樓上在洗車，機率大約 20%。

似然衡量的是：如果這件事為真，那我看到的證據有多合理？

③ 後驗（Posterior）—— 綜合考慮後，下雨的機率是多少？

                    P(嘩嘩聲|下雨) × P(下雨)
P(下雨|嘩嘩聲) = ──────────────────────────────
                            P(嘩嘩聲)

                      0.9 × 0.1
                = ─────────────────────────
                    0.9×0.1 + 0.2×0.9

                      0.09
                = ────── = 33%
                      0.27

從 10% 升到了 33%——證據（嘩嘩聲）把你的信念從 10% 拉高到了 33%，但沒有拉到 90%。因為你的先驗（天氣預報說晴天）在拉著另一頭。

關鍵直覺： 後驗 = 先驗和似然的「拔河」結果。如果先驗很強（天氣預報非常準），證據需要很強才能推翻它。如果先驗很弱（你對天氣一無所知），一點點證據就能主導你的信念。

這就是為什麼醫學檢測的例子讓人驚訝——先驗太低了（0.1%），即使似然很高（99%），後驗也只有 9%。先驗在拔河中佔了上風。

貝氏公式的四個角色

讓我把每個部分正式拆開：

貝氏公式的四個角色

符號	名稱	醫學檢測的例子	直覺解釋
P(A)	先驗機率 (Prior)	患病率 = 0.1%	在看到任何證據之前，你對 A 的信念
P(B\|A)	似然 (Likelihood)	有病→檢測陽性 = 99%	如果 A 為真，看到證據 B 的可能性
P(B)	邊際機率 (Evidence)	總體陽性率 ≈ 1.1%	不管 A 是否為真，看到 B 的機率
P(A\|B)	後驗機率 (Posterior)	陽性→真患病 ≈ 9%	看到證據 B 之後，對 A 的更新信念

用醫學檢測驗證：

                P(陽性|患病) × P(患病)      0.99 × 0.001
P(患病|陽性) = ─────────────────────── = ────────────── ≈ 0.09 = 9%
                      P(陽性)                   0.011

完美吻合。

貝氏更新：每一條新證據都在「調焦」

貝氏定理最強大的地方在於：它可以反覆使用。上一輪的後驗，變成下一輪的先驗——你的信念在一條條新證據的推動下，越來越精確。

貝氏更新：每多看一條證據，信念分布就更「尖銳」

上面這張動圖展示了一個簡單的例子：你有一枚硬幣，不知道它是否公平。一開始你什麼都不知道（平坦的先驗），然後每次拋硬幣得到新數據——每多看到一條證據，你的信念分布就從「寬而平」變得「窄而尖」，越來越確定硬幣的真實偏向。

這個過程就像相機調焦——一開始畫面模糊（高不確定性），每一條新證據都在擰動對焦環，畫面逐漸清晰。

但貝氏定理的深意不在這個計算——它在於它描述了一種思維方式：

帶著舊知識（先驗），擁抱新證據（似然），更新你的信念（後驗）。

這六個字——先驗 × 似然 → 後驗——就是貝氏定理的全部。

三、貝氏 vs 頻率學派——一場 260 年的戰爭

貝氏發表論文後的兩百多年裡，統計學界分裂為兩個陣營：

兩種機率觀

	頻率學派 (Frequentist)	貝氏學派 (Bayesian)
機率是什麼	事件在大量重複中的頻率	對事件的信念程度
「這枚硬幣正面朝上的機率是 50%」意味著	如果拋無窮多次，正面出現的比例趨近 50%	我相信正面和反面一樣可能
參數是什麼	一個固定的未知常數	一個隨證據更新的隨機變數
核心方法	最大似然估計 (MLE)	後驗推斷
對先驗知識	排斥——「主觀的東西不應該出現在科學中」	擁抱——「不用先驗知識才是浪費」
代表人物	Fisher, Neyman, Pearson	Bayes, Laplace, Jaynes

這場爭論持續了兩個多世紀。頻率學派長期佔據主流——因為「主觀先驗」聽起來不夠科學。

但從 2010 年代開始，深度學習的崛起悄悄改變了一切。

因為 AI 做的事情，本質上就是貝氏更新。

四、AI 訓練 = 貝氏更新

這是本文最重要的一節。

先驗 = 預訓練

GPT 在網路文本上訓練了兆級個 token。訓練完成後，它的幾十億個權重（參數）中儲存了「世界知識」——語法規則、常識推理、文學典故、科學事實……

這些知識就是先驗——在看到你的具體問題之前，模型已經「相信」的東西。

預訓練後的權重 = P(θ) = 先驗分布

似然 = 新數據

當你用特定領域的數據微調模型時（比如醫學文獻、法律條文、你公司的內部文件），你給了模型新的證據。

領域數據 = P(D|θ) = 似然函數

似然函數說的是：「如果模型的參數是 θ，那它生成這些新數據的機率有多大？」

後驗 = 微調後的模型

微調的目標是找到一組參數，讓模型既保留預訓練的通用知識，又適應新領域：

              P(D|θ) · P(θ)
P(θ|D) = ───────────────────
                 P(D)

              新數據對參數的要求 × 預訓練知識
微調後的模型 = ─────────────────────────────────
                      歸一化常數

AI 訓練的貝氏本質

貝氏公式            AI 訓練流程
─────────────────────────────────────────────
先驗 P(θ)         ↔  預訓練權重（兆級 token 的通用知識）
似然 P(D|θ)       ↔  微調數據（領域/任務專用數據）
後驗 P(θ|D)       ↔  微調後的模型
─────────────────────────────────────────────
先驗 × 似然 → 後驗    預訓練 + 微調 → 專業模型

這不是比喻。這是數學等價。

你可能會說：「等等，實際訓練中沒人在算貝氏公式啊，用的不是 SGD（隨機梯度下降）嗎？」

沒錯。實際的訓練演算法不是直接計算後驗分布——因為參數空間太大，精確貝氏推斷在計算上不可行。SGD 是一種近似方法。但這種近似在數學上可以被理解為貝氏推斷的一種特殊情況。

尤其是當訓練加入了正則化（L2 regularization / weight decay）——

Loss = 交叉熵 + λ Σ θ_i²

這個正則化項的機率解釋，恰好是給參數加了一個高斯先驗：

P(θ) = N(0, σ²) ∝ e^{−θ²/2σ²}

——傾向於認為參數應該接近零（簡單模型），不要太極端。

正則化 = 先驗。 當你給損失函數加一個懲罰項來防止過擬合時，你其實是在說：「我先驗地相信簡單的模型更可能是對的。」這就是奧卡姆剃刀的數學表達。

五、In-Context Learning——貝氏定理的即時版

2020 年 GPT-3 論文中最驚人的發現不是模型有多大，而是一個叫 In-Context Learning (ICL) 的現象：

你不需要微調模型。只要在 prompt 裡給幾個例子，模型就能「學會」新任務。

比如：

輸入：happy → 快樂
輸入：sad → 悲傷
輸入：beautiful → ？
輸出：美麗

你沒有改變模型的任何參數。但它「學會」了翻譯。

這件事用貝氏框架看，清晰得驚人：

In-Context Learning 的貝氏解釋

預訓練知識（先驗）:
  模型知道英文和中文
  模型知道「翻譯」是一種可能的任務
  模型見過大量翻譯的例子

Prompt 中的例子（似然/證據）:
  happy → 快樂      ←「這看起來像翻譯任務」
  sad → 悲傷        ←「而且是英譯中」

貝氏更新（後驗）:
  P(任務=英譯中 | 看到的例子) → 非常高
  所以 beautiful → 美麗

2023 年，Xie 等人在論文 “An Explanation of In-context Learning as Implicit Bayesian Inference” 中嚴格證明了：Transformer 在做 In-Context Learning 時，其內部計算過程在數學上等價於貝氏推斷。

每多看一個 example，模型就做一次隱式的貝氏更新——把「這是什麼任務」的後驗機率變得更尖銳、更確定。

這和你大腦做的事情一模一樣。當你走進一個陌生城市，看到第一個路牌是中文，你就開始假設這可能是台灣。看到第二個中文路牌，假設變得更強。看到第三個——你已經非常確定了。你沒有「重新訓練」大腦，但你的信念更新了。

六、大語言模型的每一步預測，都是貝氏

讓我把這個連結推得更遠。

LLM 生成文本的過程——逐個預測下一個 token——本身就是貝氏過程。

P(w_t+1 | w₁, w₂, ..., w_t)

先驗：模型在預訓練中學到的語言規律（語法、語意、世界知識）
似然：前面已經生成的 token 提供的上下文資訊
後驗：在給定所有上下文後，下一個 token 的機率分布

每生成一個新 token，上下文就增長一位，「證據」就多一條——模型對後續內容的預測就更精確。

文本生成 = 逐步貝氏更新

[開始]
先驗分布很「寬」——下一個詞可能是任何東西

「今天」
後驗更新 → 大概率和時間/天氣/事件有關

「今天天氣」
後驗更新 → 幾乎一定是天氣描述

「今天天氣真」
後驗更新 → 「好」的機率最高，「差」次之，「冷」也有可能

「今天天氣真好」
✓ 後驗最高機率的那個詞被選中

每一步都是：舊信念（先驗）+ 新證據（最新 token）→ 更新信念（後驗）

如果你讀過《LLM 中的機率論》，你已經知道 LLM 的核心是預測下一個詞的機率分布。現在你知道了：這個機率分布的數學本質，就是貝氏後驗。

七、貝氏與 Shannon——兩條暗線的交匯

如果你讀過《Shannon 沒有想到的事》和《資訊論——從電報到 GPT 的一條暗線》，你可能已經隱約感覺到了——

貝氏和 Shannon 講的是同一件事的兩個面。

Shannon vs Bayes：同一枚硬幣的兩面

	Shannon (資訊論)	Bayes (機率論)
核心問題	數據能被壓縮到多短？	證據如何改變信念？
核心概念	熵 H = −∑ p·log(p)	後驗 P(A\|B) = P(B\|A)·P(A)/P(B)
訓練目標	最小化交叉熵（盡可能好地壓縮數據）	最大化後驗機率（找到最合理的參數）
對 LLM 的解釋	LLM 是一個壓縮器	LLM 是一個貝氏推理機
對預訓練的解釋	壓縮網路文本的規律	從數據中提取先驗知識
對過擬合的解釋	記住了雜訊，壓縮效率下降	似然壓過了先驗，信念太極端

事實上，交叉熵損失函數的數學推導可以從兩條路走到同一個終點：

Shannon 路徑：最小化預測分布和真實分布之間的 KL 散度 → 交叉熵
Bayes 路徑：最大化數據的對數似然 → 交叉熵的負數

最小化交叉熵 ≡ 最大化對數似然 ≡ 貝氏推斷的近似

在《交叉熵損失函數》中，我們從 Shannon 的公理出發推導了 -log(p)。現在你從另一個角度看到了同一個公式——-log(p) 既是「驚訝程度」（Shannon 視角），也是「數據反對當前模型的力度」（Bayes 視角）。

Shannon 告訴你「壓縮即理解」。Bayes 告訴你「更新即學習」。LLM 同時在做這兩件事。

八、我們的大腦也是貝氏機器

貝氏定理不只是 AI 的理論工具——越來越多的神經科學研究顯示，人類的大腦也在用貝氏推斷來感知世界。

視覺錯覺：你的大腦在做貝氏

看過那些經典的視覺錯覺圖嗎？兩條一樣長的線段，加上不同方向的箭頭，你就覺得一條長一條短（慕勒-萊爾錯覺）。

為什麼？因為你的大腦不是在「看」——它是在做推斷：

視網膜收到的光訊號（似然） + 過去的視覺經驗（先驗） → 你「看到」的畫面（後驗）

你的大腦根據過去的經驗（先驗）「預期」帶向外箭頭的線段更遠、因此更長。即使光訊號告訴你它們一樣長，先驗的力量仍然影響了你的感知。

視覺錯覺，本質上是你的先驗在某些特殊情況下壓過了似然。

語言理解：同樣是貝氏

當你聽到一句模糊的話——比如在嘈雜的酒吧裡有人說了一句話，你只聽清了 70%——你的大腦怎麼「補全」剩下的 30%？

聽到的聲音片段（似然） + 語言知識和上下文（先驗） → 你理解的句子（後驗）

這就是為什麼在中文環境裡，即使你只聽到「今天天...」，大腦就已經在預測「氣」或「是」。

LLM 的下一個 token 預測，和你的大腦在做完全相同的事。

卡爾·弗里斯頓（Karl Friston，自由能原理的提出者）走得更遠。他認為大腦的所有功能——感知、行動、學習、計劃——都可以用一個統一的貝氏框架來描述：大腦在不斷地最小化「預測誤差」（自由能），而這在數學上等價於貝氏推斷。這個理論叫做 Predictive Processing，目前是認知科學最具影響力的框架之一。

九、貝氏的「不可能」——計算困難

如果貝氏推斷這麼好，為什麼不直接用？

因為精確的貝氏推斷在高維空間中是計算地獄。

為什麼精確貝氏推斷不可行

貝氏定理的分母是：

P(D) = ∫ P(D|θ) · P(θ) dθ

這意味著你要對所有可能的參數組合求積分。

GPT-2 有 1.5 億個參數
GPT-3 有 1750 億個參數
GPT-4 估計有超過 1 兆個參數

在 1750 億維空間裡做積分？這比宇宙中原子的數量還要大不知道多少個數量級。

所以，整個深度學習的歷史，就是一部「近似貝氏推斷」的歷史：

方法	貝氏解釋	近似方式
SGD（隨機梯度下降）	尋找最大後驗估計 (MAP)	只找後驗的峰值，忽略分布形狀
Dropout	模型平均	隨機丟棄神經元 ≈ 對大量不同模型求平均
L2 正則化	高斯先驗	假設參數服從常態分布
Ensemble	後驗採樣	訓練多個模型，投票
變分推斷 (VI)	用簡單分布逼近後驗	把「求積分」變成「求最佳化」
MCMC	從後驗中採樣	隨機漫步探索參數空間

你在深度學習中見過的幾乎所有「技巧」——正則化、Dropout、學習率排程、Ensemble——都有一個貝氏解釋。

這不是巧合。這些技巧之所以有效，正是因為它們在不同程度上近似了正確的貝氏推斷。

十、RLHF——貝氏更新的最新化身

如果你讀過《DeepSeek-R1：一個模型如何學會思考》，你知道現代 LLM 訓練有三個階段：

預訓練 (Pre-training) → 有監督微調 (SFT) → 人類反饋強化學習 (RLHF)

用貝氏的眼光看：

三階段訓練 = 三次貝氏更新

第一次更新：預訓練
  先驗：隨機初始化的權重（一無所知）
  似然：兆級 token 的網路文本
  後驗：通用語言模型（「會說話」但不一定好用）

第二次更新：有監督微調 (SFT)
  先驗：預訓練後的模型
  似然：人類標註的高品質問答對
  後驗：對話模型（「知道怎麼回答問題」）

第三次更新：RLHF
  先驗：SFT 後的模型
  似然：人類偏好數據（「這個回答比那個好」）
  後驗：對齊後的模型（「不僅會回答，還知道什麼是好回答」）

每一個階段都是同一個故事：舊知識（先驗）+ 新證據（似然）→ 更新的模型（後驗）。

貝氏定理像一條暗流，從 1763 年的牧師遺稿，流過 263 年的統計學爭論，最終流入了 2026 年全球每天被使用數十億次的 AI 系統的核心。

十一、貝氏沒有想到的三件事

回到標題。貝氏推導公式時，他沒有想到——

第一件：他的公式適用於一切學習

貝氏只是想解決一個賭博問題——知道一些觀測結果，推斷骰子是不是公平的。他不知道同一個公式可以描述：

嬰兒學習語言
科學家檢驗假說
醫生診斷疾病
AI 理解世界

貝氏定理不是一個機率公式。它是一個學習公式。

第二件：先驗不是偏見，是智慧

在貝氏被爭議了兩百年的歷史中，最大的批評是：「先驗是主觀的，不科學。」

但 AI 的發展證明了：先驗是最珍貴的東西。

沒有先驗的模型（隨機初始化）什麼都不會。預訓練就是在積累先驗。一個「有偏見」的模型（對世界有預期的模型）遠比一個「無知」的模型強。

關鍵不在於有沒有先驗，而在於先驗是不是合理的，以及你是否願意根據新證據更新它。

這不也是做人的道理嗎？

第三件：他的公式會成為 AI 的第一性原理

2026 年，當你向 ChatGPT 提問時：

它的預訓練知識是先驗
你的prompt是新證據
它的回答是後驗

每一次對話，都是一次貝氏更新。

一個 1761 年去世的英國牧師，用一篇未完成的遺稿，為 263 年後全球最強大的技術寫下了第一性原理。

他不知道。但數學知道。

十二、一句話總結

貝氏定理的終極啟示

學習，就是帶著你已經知道的東西，擁抱你剛剛看到的證據，然後更新你的信念。

這是貝氏定理說的。

這是 AI 在做的。

這也是你每天在做的。

P(新信念|新證據) = P(新證據|舊信念) · P(舊信念) / P(新證據)

參考與延伸

原始文獻
• Bayes, T. (1763). An Essay towards solving a Problem in the Doctrine of Chances. Philosophical Transactions of the Royal Society, 53, 370-418. [由 Richard Price 整理發表的遺稿]
• Laplace, P.-S. (1774). Mémoire sur la probabilité des causes par les événements. 獨立重新發現並推廣了貝氏定理
• Jaynes, E. T. (2003). Probability Theory: The Logic of Science. Cambridge University Press. 貝氏學派的集大成之作

AI 中的貝氏
• Xie, S. M. et al. (2022). An Explanation of In-context Learning as Implicit Bayesian Inference. ICLR 2022. 證明了 Transformer 的 ICL 等價於貝氏推斷
• Wilson, A. G. & Izmailov, P. (2020). Bayesian Deep Learning and a Probabilistic Perspective of Generalization. NeurIPS 2020. SGD 的貝氏解釋
• Friston, K. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience. 大腦作為貝氏機器

部落格相關文章
• Shannon 沒有想到的事——當資訊論遇上有限算力 — 資訊論的另一條暗線
• 看見數學（番外）：資訊論——從電報到 GPT 的一條暗線 — 壓縮 = 預測 = 理解
• 交叉熵損失函數：從 -log(p) 的完整推導 — 貝氏視角的損失函數
• LLM 中的機率論：從擲骰子到生成文本 — 機率論基礎
• 看見數學（十三）：機率——擁抱不確定 — 機率的直覺
• DeepSeek-R1：一個模型如何學會思考 — RLHF 與對齊
• 歐拉的 e——一個數字如何同時出現在複利、衰變和神經網路裡 — e 在 Softmax 和損失函數中的角色
• 知識蒸餾——當模型學會偷師 — 另一種知識傳遞方式

📖

文章精選：

程式設計時代已終結！ClaudeCode創始人斷言：程式設計就像發簡訊一樣自然，首曝個人最新工作流程：自創Sloop迴圈，單日PR達150！傳統SaaS護城河崩掉

HTML死了！前OpenAI工程師掀起網頁革命：用AI將整個螢幕變成無限直播像素流，無一行html程式碼，網友：傳統Web開發結束，前端真要失業了！

GPT之父把AI扔回1930年：沒見過一行程式碼，卻「發明」了Python！

圖靈獎得主查爾斯·巴赫曼：他在數據未成海時，便為人工智慧修好了岸

圖靈獎得主理察·薩頓（Richard Sutton）最新演講：大模型只是一時狂熱，AI的真正時代還沒開始

圖靈獎得主Bengio預言o1無法抵達AGI！Nature權威解讀AI智慧驚人進化，終極邊界就在眼前

圖靈獎得主、強化學習之父Rich Sutton：大語言模型是一個錯誤的起點

圖靈獎得主楊立昆：大語言模型缺乏對物理世界的理解和推理能力，無法實現人類水平智慧

剛剛，Claude獨立攻克圖論猜想，僅用31步！演算法祖師爺、圖靈獎得主高德納震驚發文