1763年、ある英国牧師の遺稿に一つの公式が眠っていた。それから263年後、この公式はGPTの訓練における数学的骨格となった。すなわち、事前分布 = 事前学習、尤度 = データ、事後分布 = ファインチューニングである。ベイズの定理は単なる公式ではない。それは「古い知識を携えて新たな証拠を受け入れる」という思考法であり、まさにAIの学習方法そのものなのだ。
ある牧師の未完の論文
1761年、英国の片田舎タンブリッジウェルズで、59歳の長老派教会の牧師が息を引き取った。
彼の名はトマス・ベイズ。
その生涯は平凡そのものだった。小さな教会で説教をし、時折数学を研究するも、重要な論文を発表することはなかった。彼の死後、友人のリチャード・プライスが遺品を整理していたところ、未完の手稿を発見した。
プライスは読み終えて確信する。この手稿は、人類の世界理解の方法を一変させる可能性がある、と。
1763年、プライスはこの遺稿を整理し、王立協会の『Philosophical Transactions』で発表した。そのタイトルは極めて控えめなものだった。『An Essay towards solving a Problem in the Doctrine of Chances』(確率論における一問題を解決する試みに関する小論)。
それから263年後、この論文の核心的な考え方は、GPTやBERT、Stable Diffusionといった現代のあらゆるAIの数学的骨格の一つとなった。
ベイズが思いもしなかったこと、それは、賭博の問題を解決するために彼が導き出した公式が、最終的に機械の学習方法を教えることになったということだ。
一、直感に反する問題
ベイズの定理の説明に入る前に、一つ問題を出そう。
医学検査のパラドックス
ある稀な病気があり、1000人に1人だけが罹患する(有病率0.1%)。
ここに、非常に精度の高い検査法があるとする:
- もしあなたが実際に病気であれば、検査で陽性と出る確率は99%(感度)。
- もしあなたが病気でなければ、検査で陰性と出る確率は99%(特異度)。
あなたが検査を受けたところ、結果は陽性だった。
問:あなたが実際に病気である確率は?
ほとんどの人の第一感はこうだ:「99%だ!こんなに正確なんだから!」
直感は、ほぼ確実に病気だと告げる。
しかし、正解は約9%である。
見間違いではない。検査精度が99%と高くとも、陽性結果が意味するのは、実際に病気である確率が約10分の1しかないということだ。
なぜか? 実際に計算してみよう。
計算してみよう:1万人で何が起きるか
10,000人が検査を受ける
│
├── 10人が実際に病気(有病率 0.1%)
│ ├── 9.9人 → 検査陽性(真陽性、感度 99%)
│ └── 0.1人 → 検査陰性(見逃し)
│
└── 9,990人は病気でない
├── 99.9人 → 検査陽性(偽陽性、誤判定率 1%)
└── 9,890.1人 → 検査陰性(正しく陰性)
全陽性者 = 9.9 + 99.9 = 109.8人
実際に病気の人数 = 9.9人
実際に病気である確率 = 9.9 / 109.8 ≈ 9.0%重要な洞察:偽陽性率はわずか1%だが、病気でない人(9,990人)の母数が、病気の人(10人)よりも圧倒的に多い。そのため、9,990人の1%(≈100人)は、実際に病気の10人をはるかに上回るのだ。
あなたの直感の何が問題だったのか?
重要な情報を見落としていたのだ。有病率自体が非常に低い(0.1%)という事実である。検査を受ける前から、あなたが病気である確率は極めて低かった。陽性の結果は、この低い確率を「上方修正」したに過ぎず、99%にまで反転させたわけではないのだ。
これこそが、ベイズの定理が解決しようとする核心的な問題である:新たな証拠を得たとき、あなたの当初の信念はどう更新されるべきか?
医学検査のパラドックスをベイズ分解:事前確率 × 尤度 → 事後確率
二、ベイズの定理——六文字で十分
ベイズの定理
P(B|A) · P(A)
P(A|B) = ─────────────────
P(B)これを平易な言葉に訳すと:
証拠の力 × 古い信念
新しい信念 = ───────────────────────
証拠そのもののありふれ度合いある日常風景で、三つの役割を徹底解説
公式は取っ付きにくそうに見えるが、実はあなたも毎日使っている。ただ、脳が自動で計算しているだけだ。例を用いて、三つの役割を明確にしよう。
シーン:朝、目が覚めると、窓の外から「ザーザー」という音が聞こえる。外は雨だろうか?
三つの役割、一つの物語
① 事前分布(Prior)—— 音を聞く前に、雨が降っている可能性はどれくらいだと思うか?
昨晩の天気予報では、今日は晴れと言っていた。だからあなたは心の中で「雨が降る確率は10%くらいだろう」と思う。
これが事前分布である。何らかの証拠を見る前に、既存の知識に基づいて下す判断のことだ。
② 尤度(Likelihood)—— 実際に雨が降っていた場合、「ザーザー」という音を聞く可能性はどれくらいか?
もし本当に外で雨が降っているなら、ザーザーという音を聞く確率は高い。例えば90%としよう(雨足が弱くて聞こえない可能性もある)。
しかし注意すべきは、外が雨でなくとも、ザーザーという音を聞く可能性があるということだ。例えば、隣人が水をまいているか、上の階の人が洗車をしているかもしれない。その確率を約20%としよう。
尤度が測るのは、「もしその事柄が真実なら、私が目にした証拠はどれほど妥当か」ということだ。
③ 事後分布(Posterior)—— 総合的に考えた結果、雨が降っている確率は?
P(ザーザー音|雨) × P(雨)
P(雨|ザーザー音) = ─────────────────────────
P(ザーザー音)
0.9 × 0.1
= ─────────────────────────
0.9×0.1 + 0.2×0.9
0.09
= ────── = 約33%
0.2710%から33%へと上昇した。証拠(ザーザー音)によって、信念は10%から33%に引き上げられたが、90%にまで引き上げられたわけではない。なぜなら、事前分布(天気予報は晴れと言っていた)が反対側に引っ張っているからだ。
重要な直感: 事後分布 = 事前分布と尤度の「綱引き」の結果である。事前分布が非常に強力なら(天気予報が極めて正確なら)、証拠はそれを覆すために非常に強力である必要がある。事前分布が非常に弱ければ(あなたが天候について全く何も知らなければ)、わずかな証拠があなたの信念を支配してしまう。
これこそが、医学検査の例が驚きを与えた理由だ。事前分布が極めて低く(0.1%)、尤度が非常に高くても(99%)、事後分布はわずか9%にしかならない。綱引きで事前分布が優勢だったのである。
ベイズの公式における四つの役割
各部分を正式に分解してみよう:
ベイズの公式の四つの役割
| 記号 | 名称 | 医学検査の例 | 直感的な説明 |
|---|---|---|---|
| P(A) | 事前確率 (Prior) | 有病率 = 0.1% | 何らかの証拠を見る前の、Aに対する信念 |
| P(B|A) | 尤度 (Likelihood) | 病気→検査陽性 = 99% | Aが真実である場合に、証拠Bを目にする可能性 |
| P(B) | 周辺確率 (Evidence) | 全体の陽性率 ≈ 1.1% | Aの真偽にかかわらず、Bを目にする確率 |
| P(A|B) | 事後確率 (Posterior) | 陽性→真の罹患 ≈ 9% | 証拠Bを見た後に更新された、Aに対する信念 |
医学検査で検証すると:
P(陽性|罹患) × P(罹患) 0.99 × 0.001
P(罹患|陽性) = ──────────────────── = ──────── ≈ 0.09 = 9%
P(陽性) 0.011完全に一致する。
ベイズ更新:新たな証拠のたびに「焦点」が合う
ベイズの定理の最も強力な点は、それが繰り返し使えることだ。前のラウンドの事後分布が、次のラウンドの事前分布になる。あなたの信念は、次々と得られる新たな証拠に後押しされて、ますます正確になっていく。
ベイズ更新:証拠を一つ見るたびに、信念の分布はより「鋭く」なる
上の動画は簡単な例を示している。あなたはコインを一枚持っているが、それが公平かどうか分からない。最初は何も知らず(平坦な事前分布)、コインを投げるたびに新しいデータを得る。証拠を一つ多く見るたびに、あなたの信念の分布は「幅広く平ら」なものから「狭く尖った」ものへと変わり、コインの真の偏りについてますます確信を深めていく。
このプロセスは、カメラのピント合わせに似ている。最初はぼやけていた画面(高い不確実性)が、一つ一つの証拠がフォーカスリングを回すたびに、徐々に鮮明になっていく。
しかし、ベイズの定理の深遠さはこの計算そのものにはない。それは一つの思考法を記述している点にある。
古い知識(事前分布)を携え、新たな証拠(尤度)を受け入れ、あなたの信念(事後分布)を更新する。
この六文字——事前分布 × 尤度 → 事後分布——これがベイズの定理の全てである。
三、ベイズ学派 vs 頻度学派——260年にわたる戦い
ベイズが論文を発表してから200年以上にわたり、統計学界は二つの陣営に分裂してきた。
二つの確率観
| 頻度学派 (Frequentist) | ベイズ学派 (Bayesian) | |
|---|---|---|
| 確率とは何か | 事象が多数回の繰り返しの中で起こる頻度 | 事象に対する信念の度合い |
| 「このコインの表が出る確率は50%」の意味 | もし無限回投げれば、表が出る割合は50%に近づく | 私は表と裏が同じくらい出ると信じている |
| パラメータとは何か | 固定された未知の定数 | 証拠によって更新される確率変数 |
| 中核的手法 | 最尤推定 (MLE) | 事後分布による推論 |
| 事前知識に対して | 拒絶——「主観的なものは科学に持ち込むべきでない」 | 歓迎——「事前知識を使わないのは無駄である」 |
| 代表的人物 | フィッシャー、ネイマン、ピアソン | ベイズ、ラプラス、ジェインズ |
この論争は2世紀以上も続いた。長らく頻度学派が主流だった。なぜなら「主観的な事前分布」は科学的に聞こえなかったからだ。
しかし2010年代以降、ディープラーニングの台頭が静かに全てを変えた。
なぜなら、AIが行っていることは、本質的にベイズ更新だからだ。
四、AIの訓練 = ベイズ更新
ここがこの文章で最も重要な節である。
事前分布 = 事前学習
GPTは、インターネット上のテキスト数兆トークンで訓練されている。訓練完了後、その数十億の重み(パラメータ)には「世界知識」、すなわち文法規則、常識推論、文学的な典故、科学的事実などが格納される。
これらの知識こそが事前分布である。あなたの具体的な質問を見る前に、モデルが既に「信じている」ことだ。
学習済みの重み = P(θ) = 事前分布
尤度 = 新しいデータ
特定の分野のデータ(例えば医学文献、法律文書、あなたの会社の内部文書)を使ってモデルをファインチューニングする時、あなたはモデルに新たな証拠を与えている。
分野データ = P(D|θ) = 尤度関数
尤度関数が語るのは、「もしモデルのパラメータがθなら、この新しいデータを生成する確率はどれくらいか」ということだ。
事後分布 = ファインチューニング後のモデル
ファインチューニングの目標は、事前学習による汎用的な知識を保持しつつ、新しい分野にも適応できるパラメータのセットを見つけることだ。
P(D|θ) · P(θ)
P(θ|D) = ───────────────
P(D)
新しいデータがパラメータに求めるもの × 事前学習の知識
調整後モデル = ─────────────────────────────────────
正規化定数
AI訓練のベイズ的本質
ベイズの公式 AIの訓練パイプライン ───────────────────────────────────────────── 事前分布 P(θ) ↔ 事前学習済みの重み(数兆トークンの汎用知識) 尤度 P(D|θ) ↔ ファインチューニング用データ(分野・タスク専用データ) 事後分布 P(θ|D) ↔ ファインチューニング後のモデル ───────────────────────────────────────────── 事前分布×尤度→事後分布 事前学習 + ファインチューニング → 専門モデル
これは比喩ではない。数学的に等価なのである。
「ちょっと待って、実際の訓練では誰もベイズの公式を計算していないし、SGD(確率的勾配降下法)を使っているじゃないか?」と思うかもしれない。
その通りだ。実際の訓練アルゴリズムは事後分布を直接計算するわけではない。パラメータ空間があまりに広大なため、厳密なベイズ推論は計算上不可能だからだ。SGDは一つの近似手法である。しかしこの近似は、数学的にはベイズ推論の特殊なケースとして理解できる。
とりわけ、訓練に正則化(L2正則化 / 荷重減衰)が加えられた場合——
損失 = 交差エントロピー + λ Σ θi²
この正則化項の確率論的な解釈は、まさにパラメータにガウス事前分布を設定していることに等しい:
P(θ) = N(0, σ²) ∝ e−θ²/2σ²
——つまり、パラメータはゼロに近くあるべきだ(単純なモデルであるべきだ)と傾向付けて、極端になりすぎないようにしているのだ。
正則化 = 事前分布。 過学習を防ぐために損失関数にペナルティ項を加えるとき、あなたはこう言っているも同然だ。「私は事前知識として、単純なモデルほど正しい可能性が高いと信じている」。これはオッカムの剃刀の数学的表現である。
五、インコンテキスト学習——ベイズの定理のリアルタイム版
2020年のGPT-3論文で最も驚くべき発見は、モデルの大きさではなく、インコンテキスト学習(ICL)と呼ばれる現象だった。
モデルをファインチューニングする必要はない。プロンプトにいくつか例を示すだけで、モデルは新しいタスクを「学習」できるのだ。
例えば:
入力:happy → 幸せ 入力:sad → 悲しい 入力:beautiful → ? 出力:美しい
モデルのパラメータは一切変更していない。しかし、モデルは翻訳を「学習」した。
この事象をベイズのフレームワークで眺めると、驚くほど明解になる。
インコンテキスト学習のベイズ的解釈
事前学習の知識(事前分布): モデルは英語と日本語を知っている モデルは「翻訳」というタスクがあり得ると知っている モデルは大量の翻訳例を見てきている プロンプト内の例(尤度/証拠): happy → 幸せ ←「これは翻訳タスクのようだ」 sad → 悲しい ←「しかも英日翻訳だ」 ベイズ更新(事後分布): P(タスク=英日翻訳 | 与えられた例) → 非常に高い したがって beautiful → 美しい
2023年、Xieらは論文『An Explanation of In-context Learning as Implicit Bayesian Inference』で厳密に証明した。Transformerがインコンテキスト学習を行う際、その内部計算プロセスは数学的にベイズ推論と等価である、と。
一つ例を見るごとに、モデルは暗黙のベイズ更新を一度行い、「これは何のタスクか」という事後確率をより鋭く、より確実なものにしているのだ。
これはあなたの脳が行っていることと全く同じだ。あなたが見知らぬ街を歩いていて、最初の道路標識が日本語だと気づく。すると、ここは日本かもしれないと仮説を立て始める。二つ目の日本語の標識を見て、仮説はより強固になる。三つ目を見た時には、あなたはもう完全に確信している。あなたは脳を「再訓練」したわけではないが、信念は更新されたのだ。
六、大規模言語モデルの予測の一歩一歩が、全てベイズである
この繋がりをさらに推し進めてみよう。
LLMがテキストを生成するプロセス——次のトークンを逐次予測すること——それ自体がベイズプロセスなのである。
P(wt+1 | w1, w2, ..., wt)
- 事前分布:モデルが事前学習で学んだ言語の法則(文法、意味、世界知識)
- 尤度:既に生成されたトークン群が提供する文脈情報
- 事後分布:全ての文脈が与えられた上での、次のトークンの確率分布
新しいトークンを生成するたびに、文脈は1つ分成長し、「証拠」は1つ増える。それによって、後続の内容に対するモデルの予測はより正確になる。
テキスト生成 = 漸進的ベイズ更新
[開始] 事前分布は「幅広い」——次の単語は何でもあり得る 「今日」 事後確率を更新 → 高い確率で時間/天気/出来事に関するもの 「今日の天気」 事後確率を更新 → ほぼ間違いなく天気の説明 「今日の天気は」 事後確率を更新 → 「良い」の確率が最も高く、「悪い」が次点、「寒い」の可能性も 「今日の天気は良い」 ✓ 事後確率が最も高かった単語が選択された
一歩一歩が全て:古い信念(事前分布) + 新しい証拠(最新のトークン) → 更新された信念(事後分布)
もしあなたが『LLMにおける確率論』を読んだなら、LLMの核心が次の単語の確率分布を予測することだと既に知っているだろう。これであなたは理解したはずだ:この確率分布の数学的本質は、まさにベイズ事後分布なのである。
七、ベイズとシャノン——二つの伏線の交差点
もしあなたが『シャノンが思いもしなかったこと』や『情報理論——電信からGPTへと続く一本の伏線』を読んだなら、もう朧げながら感じているかもしれない——
ベイズとシャノンは、同じ事柄の二つの側面を語っている。
シャノン vs ベイズ:同じコインの裏表
| シャノン (情報理論) | ベイズ (確率論) | |
|---|---|---|
| 核心的な問い | データはどこまで短く圧縮できるか? | 証拠は信念をどう変えるか? |
| 中核的概念 | エントロピー H = −∑ p·log(p) | 事後確率 P(A|B) = P(B|A)·P(A)/P(B) |
| 訓練目標 | 交差エントロピー最小化(データを可能な限り上手く圧縮する) | 事後確率最大化(最も合理的なパラメータを見つける) |
| LLMの解釈 | LLMは圧縮器である | LLMはベイズ推論マシンである |
| 事前学習の解釈 | インターネットテキストの法則性を圧縮する | データから事前知識を抽出する |
| 過学習の解釈 | ノイズを記憶し、圧縮効率が低下する | 尤度が事前分布を圧倒し、信念が極端になりすぎる |
実際のところ、交差エントロピー損失関数の数学的導出は、二つの道筋から同じ最終地点に辿り着くことができる:
- シャノンの道筋:予測分布と真の分布の間のカルバック・ライブラー情報量を最小化する → 交差エントロピー
- ベイズの道筋:データの対数尤度を最大化する → 交差エントロピーの負の値
交差エントロピー最小化 ≡ 対数尤度最大化 ≡ ベイズ推論の近似
『交差エントロピー損失関数』では、私たちはシャノンの公理から -log(p) を導出した。今、あなたは別の角度から同じ公式を目にしている。-log(p) は「驚きの度合い」(シャノンの視点)であると同時に、「現在のモデルに反するデータの強さ」(ベイズの視点)でもあるのだ。
シャノンは「圧縮こそが理解である」と教え、ベイズは「更新こそが学習である」と教える。LLMはこれら二つを同時に行っているのである。
八、我々の脳もベイズマシンである
ベイズの定理はAIの理論的ツールに留まらない。ますます多くの神経科学研究が示しているのは、人間の脳もまた、ベイズ推論を用いて世界を知覚しているということだ。
錯視:あなたの脳はベイズ推論をしている
あの古典的な錯視図形を見たことがあるだろうか?同じ長さの二本の線分が、逆向きの矢印が付けられるだけで、一方が長く、他方が短く見える(ミュラー・リヤー錯視)。
なぜか? それはあなたの脳が「見て」いるのではなく、推論をしているからだ。
網膜が受け取った光の信号(尤度) + 過去の視覚経験(事前分布) → あなたが「見ている」画面(事後分布)
あなたの脳は過去の経験(事前分布)に基づき、外向き矢印の付いた線分は「より遠くにある」ため「より長い」と「予期」する。光の信号が「同じ長さだ」と伝えていても、事前分布の力が依然としてあなたの知覚に影響を与えるのだ。
錯視とは、本質的に、あなたの事前分布が特定の状況下で尤度を圧倒した結果なのである。
言語理解:やはりベイズである
あなたが曖昧な言葉を聞いたとしよう。例えば騒がしいバーで誰かが話した言葉の70%しか聞き取れなかった時、あなたの脳はどのようにして残りの30%を「補完」するのか?
聞き取れた音声の断片(尤度) + 言語知識と文脈(事前分布) → あなたが理解した文章(事後分布)
これが、日本語の環境で「きょうのて...」とだけ聞こえたとしても、脳が「天気」や「は」を予測し始める理由である。
LLMの次のトークン予測と、あなたの脳は全く同じことをしているのだ。
カール・フリストン(自由エネルギー原理の提唱者)は、さらに先を行く。彼は、脳のあらゆる機能——知覚、行動、学習、計画——は、統一的なベイズの枠組みで記述できると考える。脳は絶えず「予測誤差」(自由エネルギー)を最小化しており、これは数学的にベイズ推論と等価である。この理論は予測的処理と呼ばれ、現在の認知科学で最も影響力のあるフレームワークの一つである。
九、ベイズの「不可能」——計算の困難さ
もしベイズ推論がそれほど優れているなら、なぜ直接使わないのか?
厳密なベイズ推論は、高次元空間においては計算上の地獄だからだ。
なぜ厳密なベイズ推論は実行不可能なのか
ベイズの定理の分母は:
P(D) = ∫ P(D|θ) · P(θ) dθ
これはつまり、全ての可能なパラメータの組み合わせについて積分を行うことを意味する。
- GPT-2には1.5億のパラメータがある
- GPT-3には1750億のパラメータがある
- GPT-4には1兆を超えるパラメータがあると推定される
1750億次元の空間で積分を行う?これは宇宙の原子の数よりも、どれだけ多いか分からない桁違いの計算量である。
従って、ディープラーニングの歴史全体が、「近似ベイズ推論」の歴史なのである:
| 手法 | ベイズ的解釈 | 近似の方法 |
|---|---|---|
| SGD(確率的勾配降下法) | 最大事後確率推定(MAP推定)を探索 | 事後分布のピークのみを探し、分布の形状は無視する |
| ドロップアウト | モデル平均化 | ニューロンをランダムに無効化 ≈ 多数の異なるモデルの平均を取る |
| L2正則化 | ガウス事前分布 | パラメータが正規分布に従うと仮定する |
| アンサンブル | 事後分布からのサンプリング | 複数のモデルを訓練し、投票させる |
| 変分推論 (VI) | 単純な分布で事後分布を近似 | 「積分を求める」問題を「最適化を求める」問題に変える |
| MCMC | 事後分布からサンプリングする | ランダムウォークでパラメータ空間を探索する |
あなたがディープラーニングで見かけたほぼ全ての「テクニック」——正則化、ドロップアウト、学習率スケジューリング、アンサンブル——には、ベイズ的な解釈が存在する。
これは偶然ではない。これらのテクニックが効果的なのは、まさにそれらが、程度の差こそあれ、正しいベイズ推論を近似しているからである。
十、RLHF——ベイズ更新の最新の化身
もしあなたが『DeepSeek-R1:一つのモデルがいかにして思考を学んだか』を読んだなら、現代のLLM訓練が三段階あることを知っているだろう:
事前学習 → 教師ありファインチューニング (SFT) → 人間のフィードバックによる強化学習 (RLHF)
これをベイズの視点で見ると:
三段階訓練 = 三度のベイズ更新
第一回更新:事前学習 事前分布:ランダムに初期化された重み(全くの無知) 尤度:数兆トークンのインターネットテキスト 事後分布:汎用言語モデル(「話せる」が必ずしも使いやすいとは限らない) 第二回更新:教師ありファインチューニング (SFT) 事前分布:事前学習済みモデル 尤度:人間が注釈した高品質な質問応答ペア 事後分布:対話モデル(「質問への答え方を知っている」) 第三回更新:RLHF 事前分布:SFT後のモデル 尤度:人間の選好データ(「こちらの回答があちらの回答より良い」) 事後分布:アライメント済みモデル(「回答できるだけでなく、良い回答とは何かも知っている」)
どの段階も同じ物語である:古い知識(事前分布)+ 新たな証拠(尤度)→ 更新されたモデル(事後分布)。
ベイズの定理は、一本の伏流のように、1763年の牧師の遺稿から、260年に及ぶ統計学の論争を経て、最終的に2026年の世界で毎日何十億回も使われるAIシステムの中核へと流れ込んでいる。
十一、ベイズが思いもしなかった三つのこと
タイトルに戻ろう。公式を導き出した時、ベイズは思いもしなかった——
第一に:彼の公式はあらゆる学習に適用できる
ベイズは単に賭博の問題を解きたかっただけだ。いくつかの観測結果を知り、サイコロが公平かどうかを推論するという問題である。彼は、同じ公式が以下のことを記述できるとは知らなかった:
- 乳児の言語学習
- 科学者の仮説検証
- 医師の病気診断
- AIの世界理解
ベイズの定理は確率の公式ではない。それは学習の公式である。
第二に:事前分布は偏見ではなく、叡智である
ベイズが200年にわたって論争されてきた歴史の中で、最大の批判は「事前分布は主観的で非科学的だ」というものだった。
しかしAIの発展が証明したのは、事前分布こそが最も貴重なものだということだ。
事前分布を持たないモデル(ランダム初期化)は何もできない。事前学習とは、事前分布を蓄積するプロセスである。「偏見のある」(世界に対して期待を持つ)モデルは、「無知な」モデルよりもはるかに強力だ。
重要なのは事前分布の有無ではない。事前分布が合理的かどうか、そして新たな証拠に基づいてそれを更新する意思があるかどうかである。
これはまた、人としての道理にも通じないだろうか?
第三に:彼の公式はAIの第一原理となる
2026年、あなたがChatGPTに質問する時:
- その事前学習知識が事前分布
- あなたのプロンプトが新たな証拠
- その回答が事後分布
一回一回の対話が、一回のベイズ更新なのである。
1761年に亡くなった英国の牧師が、未完の遺稿によって、263年後の世界で最も強力なテクノロジーの第一原理を記した。
彼は知らなかった。しかし、数学は知っていたのだ。
十二、一言のまとめ
ベイズの定理の究極の啓示
学習とは、あなたが既に知っていることを携え、たった今目撃した証拠を受け入れ、そしてあなたの信念を更新することである。
これがベイズの定理の教えである。
これがAIが行っていることである。
そしてこれは、あなたが日々行っていることでもある。
P(新しい信念|新証拠) = P(新証拠|古い信念) · P(古い信念) / P(新証拠)