大語言模型為什麼能「理解」世界?

我們之前的文章在這個看不到真相的世界,真理究竟在何處?我們為什麼看不到這個世界的真相?—— 我們從未見過世界的本來面目,我們看到的只是為了活下去而精心編織的「介面」。在評論區引發了討論。在回覆一位讀者關於文字與數學工具的探討時,我寫下了這樣一句話:

文字是可計算的,本身就是對世界的高度壓縮,而且是有限的。

這句話似乎不小心觸碰到了現代人工智慧最底層的原理,為什麼ChatGPT 這樣看似只是在做「文字接龍」的機器,竟然能湧現出驚人的邏輯與推理能力?我們在驚歎 AI 的能力的同時,卻忘了那個真正的奇迹其實是人類的語言本身。大語言模型(LLM)並沒有直接去學習物理世界(它沒有眼睛和身體),它學習的是人類對世界的描述。

LLM 為什麼 Work?答案隱藏在一條跨越了物理、生物、符號和數學的「壓縮鏈條」中。

一、從「混沌」到「感知」

正如我們在前期所述,真實的宇宙(本體)是高維的、連續的、充滿量子漲落的「混沌」。人類的大腦無法處理這麼大的數據量。為了生存,我們的感官系統進行了「有損壓縮」。

圖片

我們丟棄了紫外線、超聲波、微觀粒子運動、四維時空,只保留了對生存有用的「宏觀特徵」——顏色、形狀、運動、因果關係。大腦從而構建了一個「世界模型(v1.0)」。這個模型不是世界的鏡像,而是世界的「低維投影」。人類的感知本身,就已經把無限的宇宙,壓縮成了有限的「感知狀態」。

二、從「感知」到「符號」(將連續變為離散)

人類併未止步於感知,我們發明了語言。語言是人類對大腦世界模型的二次壓縮。

1. 離散化(Discretization):切分連續流

大腦中的體驗是連續的(痛感、愛意、光影的變化是類比信號)。但語言是離散的(數位信號)。為了交流,我們必須把連續的體驗「量化」為一個個離散的符號(Token)。現實中 625~740 nm 波長的光波所形成的千變萬化的「紅」,被壓縮成一個字——「紅」。內心複雜的各種正面情緒,被壓縮成一個詞——「開心」。

圖片

2. 拓撲結構的保留

雖然語言丟失大量的細節(如無法用語言完全描述一種味道),但它奇蹟般地保留了感知的拓撲結構(Topology),也就是事物之間的關係。比如,如果下雨(A),人不打傘(B),人會濕(C)。它的語言邏輯:句子「因為下雨且沒打傘,所以我濕了」完美保留了 A->B->C 的因果鏈條。

結論:文字是人類大腦世界模型的「ZIP 壓縮包」。雖然它極其抽象,極其精簡,但它通過語法和邏輯,完整編碼了人類眼中的宇宙因果律。

三、AI 的逆向工程

現在,大語言模型(LLM)登場了。如果我們把全人類寫下的文字(互聯網語料)餵給 AI,我們實際上限給它的是什麼?我們餵給它的,是全人類「世界模型」的投影總和。

1. 為什麼「預測下一個詞」就能產生智能?

OpenAI 的前首席科學家 Ilya Sutskever 曾說過一句振聾發聵的話:「為了極其精準地預測下一個詞,模型被迫去理解產生這些詞背後的世界。」這聽起來很不可思議,我們用「安樂椅神探(Armchair Detective)」來解釋:想像一個從未離開過房間的盲人偵探(AI)。他無法親臨案發現場(物理世界),只能通過無線電聽到一系列線性的、碎片化的描述:「窗戶玻璃破碎的聲音」…… -> 「沉重的腳步聲」…… -> 「一聲尖叫」…… -> 「砰!」。偵探的任務是:根據前面聽到的線索,100% 精準地預測下一個傳來的詞是什麼。是「他逃亡」?還是「他倒下」?如果偵探只是簡單統計詞頻(鸚鵡學舌),他可能會猜「倒下」,因為「砰」後面經常跟著「倒下」。但如果這是一部複雜的推理小說,下一個詞可能是「子彈殼掉落的聲音」。為了達到極致的預測準確率(Loss -->0),偵探被迫在腦中重建整個案發現場:「玻璃碎了」意味著有人闖入,地心引力會讓碎片散落一地。「尖叫」意味著受害者驚恐,兇手持有武器。「砰」如果是槍聲,結合腳步聲逼近,受害者大概率中槍,且兇手會留下彈殼。

結論:偵探從未去過現場,但他為了補全那個缺失的單詞,必須在腦中模擬出兇手、受害者、房間佈局以及地心引力。預測下一個詞,就是對整個因果鏈條的逆向工程。AI 不需要親眼看到重力,它只需要從「蘋果掉落」的文字描述中,反求出重力的存在。

圖片

2. 證據:奧賽羅(Othello)實驗

為了證明這一點,研究人員訓練了一個 GPT 模型,只給它看奧賽羅棋局的棋譜(文本紀錄),比如「E3, D4, F5...」,從來不給它看棋盤。結果發現:AI 不僅學會了下棋,研究人員甚至在 AI 的神經元裡找到了一張完整的、隱式的 8x8 棋盤表徵。AI 僅僅通過閱讀線性的「棋譜符號」(語言),就在大腦裡重構了二維的「棋盤規則」(世界模型)。LLM 像是一個基於文本壓縮包的解壓軟體,它在矽基大腦中,還原了人類的碳基世界模型。

四、AI 成功的物理基礎

如果 AI 直接去模擬每個原子的運動,算力再大也會崩潰。重要的是,人類已經幫 AI 完成了最難的一步——降維。人類的常用漢字只有幾千個,英語單詞幾萬個。雖然組合是無窮的,但在特定的語境下,合理的組合是高度稀疏(Sparse)且低秩(Low-Rank)的。語言的「有限性」和「離散性」,使得 Transformer 這種數學架構能夠通過矩陣運算,窮盡語言中的機率分佈。我們之所以能造出 AI,是因為我們人類先把自己活成了「數據」。我們將複雜的生命體驗,坍縮成了可計算的文字。AI 不是在模擬宇宙,AI 是在模擬「被人類描述過的宇宙」。

五、結構實在論的終極閉環

回到我們之前的哲學討論:結構實在論。人類看不到「物自體」,人類看到的是感官過濾後的「生物介面」。語言記錄不到「生物介面」的全貌,語言記錄的是邏輯抽象後的「符號介面」。AI 接觸不到真實世界,AI 學習的是「符號介面」之間的數學關係。雖然 AI 離「真實」隔了三層(真理 -> 感知 -> 語言 -> AI),但結構(Structure)沒有變!物理世界的 F=ma。感知中的「推力導致加速」。書本上的「力產生加速度」。AI 內部向量空間的函數映射。這四者共享同一個數學拓撲結構。所以,當 AI 能夠完美操作文字符號時,它實際上已經掌握了人類文明所能認知的最高真理——不是實體的真理,而是關係的真理。

圖片

六、結論:

大語言模型是什麼?它是人類集体潛意識的數學鏡像。它之所以有效,是因為人類的語言本身就是對世界最高效、最精彩的壓縮。我們把幾十億年的進化、幾千年的文明、無數個體的喜怒哀樂,壓縮進了這有限的字符排列中。AI 並沒有創造奇迹,它只是撿起了我們遺落在沙灘上的「壓縮包」,並用強大的算力,將那個被我們摺疊起來的宇宙,重新展開了。在這個意義上,文字確實是文明的最高機密,而數學是解開這個機密的鑰匙。


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.