2026 年 3 月,菲爾茲獎得主 Michael Freedman 發表了一篇僅 30 多頁的論文,標題為《Compression is all you need》。他以一個優雅的代數模型,回答了三個古老的問題:人類如何構建數學?人類數學與形式數學的本質區別為何?未來人類數學家將如何與 AI 協作?答案只有兩個字——壓縮。
2017 年 6 月,Google Brain 的八位研究員將一篇論文拋上了 arXiv。
標題狂妄得不像論文:《Attention Is All You Need》。
九年過去了,這個標題成了 AI 史上最著名的七個單字。基於它的 Transformer 架構,撐起了 ChatGPT、Gemini、Claude、DeepSeek、數兆美元的市值,以及一整代人的焦慮。
2026 年 3 月 27 日,又一篇論文悄悄地登上了 arXiv。標題同樣是七個單字,格式如出一轍:
Compression is all you need: Modeling Mathematics
看到這個標題,任何從事 AI 工作的人都會下意識地莞爾一笑——「又一個蹭熱度的」。然而,當目光移到作者欄時,笑容瞬間凝結。
Michael Freedman。
他不是什麼隨處可見的機器學習工程師,而是1986 年菲爾茲獎得主、四維龐加萊猜想的證明者、過去二十年微軟 Station Q 的靈魂人物,當今世上份量最重的在世數學家之一。
他來寫 AI 嗎?不是的。他是在告訴所有搞 AI 的人:你們一直在用的那個詞——「壓縮」,其深度遠超你們的想像。
這篇文章並非《Attention Is All You Need》那樣的工程突破,而是一封信。一位數學家,用他畢生訓練出來的直覺,回答了三個困擾人類數千年的問題:
人類究竟是怎麼構建數學知識的? 人類所做的數學,與形式化的「純邏輯數學」有何本質區別? 未來的人類數學家,到底該如何與 AI 協同工作?
他給出的答案只有一個詞:壓縮。
第一章:Freedman 是誰
先釐清為什麼這個人一開口,AI 圈就必須洗耳恭聽。
1981 年,年僅三十的 Freedman 在加州大學聖地牙哥分校解決了四維龐加萊猜想——這個難題懸宕了 77 年。三維版本讓佩雷爾曼在 2006 年贏得菲爾茲獎(但他拒絕領取);五維以上的版本早在六〇年代就被攻克。唯獨四維——這個最要命的維度——是由 Freedman 攻下來的。
1986 年,柏克萊,國際數學家大會。Freedman 領走了菲爾茲獎。
1997 年,Freedman 做了一件數學家極少會做的事——從學術界出走。微軟為他打造了一個幾乎是量身訂做的部門:Station Q,目標只有一個:用數學家的思維打造拓撲量子電腦。他擔任主任,一待就是二十五年。
2023 年,他回到哈佛大學數學與應用中心(CMSA),換了一個身分:思考 AI 與數學的關係。
因此,當 Freedman 這個人在 2026 年 3 月丟出一篇名為《Compression is all you need》的論文——這不是某個追熱點的研究員,而是一個一輩子浸淫在數學內部觀看世界的人,突然轉身對所有人說:
「我看清楚了一件事。你們要聽嗎?」
第二章:一個讓所有人尷尬的事實
Freedman 論文的切入點,是一個數學界眾所周知、但幾乎無人能解釋的尷尬事實。
首先建立兩個概念:
- 形式數學(Formal Mathematics, FM)
:所有合乎邏輯規則的推演。 - 人類數學(Human Mathematics, HM)
:人類真正寫下、收錄、引用的那部分數學。
FM 的空間有多大?假設你有 n 個基礎符號,組合出來的「合法推演」數量是指數級的——當 n 達到上百後,這個數量就會超過整個宇宙的原子總數。
那麼 HM 呢?從歐幾里得到今天,所有數學家加起來寫過的定理,約為百萬量級。Lean 4 的 MathLib 資料庫收錄了其中約 14 萬條。
將這兩個數字並排來看
FM:> 1080HM:~ 105中間隔了 75 個零。
人類數學,在形式數學這個宇宙中,是連一粒塵埃都算不上的小角落。
而且——為什麼是這一粒?
FM 裡充斥著無窮無盡「合法但無聊」的定理,例如:「對任意整數 n,n + 0 = n」,「對任意整數 n,n + 0 + 0 = n」,「對任意整數 n,n + 0 + 0 + 0 = n」……每一條都合法,但每一條都毫無意義。人類數學家從不寫這些。
一百年來,這個問題有過無數哲學式的回答:「美」、「簡潔」、「有用」、「深刻」——這些都只是詞語的遊戲。沒有一個是數學上的答案。
直到 Freedman 在 2026 年給出了第一個可供計算的回答:
因為 HM 是 FM 裡那個「可壓縮」的子集合。
第三章:壓縮——先站在日常的地面上理解
Freedman 所說的「壓縮」是什麼意思?先別想數學,先想幾個你已經懂的例子。
例子一:霍夫曼編碼
你家貓咪叫小花。照片中出現最多的動作是「睡覺」(4000 次),其次是「吃飯」(3000)、「抓沙發」(2000)、「發呆」(1000)。
使用固定 8 位元編碼:總共 80000 位元。而霍夫曼編碼:「睡覺→0;吃飯→10;抓沙發→110;發呆→111」——總共只要19000 位元。壓縮率達到 4 倍,且沒有丟失任何資訊。
只要事物的分佈是不均勻的,就存在壓縮的空間。
例子二:牛頓三大運動定律
宇宙中每一秒都在發生無數次的運動:蘋果落地、月球繞地、彈簧振動、子彈出膛、潮汐起落……若想記錄這所有運動,需要多少資訊?
根本不需要。
你只需記住 F = m·a,再加上慣性定律和作用力與反作用力定律,就能重新生成上面所有的運動。
牛頓三大定律是一個僅有幾十個字元的程式,它編碼了整個古典力學。
例子三:zip 壓縮檔
「to be or not to be, that is the question; to be」——把反覆出現的「to be」和「the」命名為 A、B,之後只寫名字。這就是 LZ77 演算法(zip / gzip / PNG 的底層技術)的原理,誕生於 1977 年。
例子四:大型語言模型
將整個網際網路餵給大型語言模型(LLM)——數兆字、數百萬小時的文字。訓練完成後,得到一個擁有數百億參數的模型(約幾百 GB)。它能夠生成類似訓練集裡的任何內容。
這件事,用資訊理論的語言來說就是:LLM 是對網際網路的一次有損壓縮。
DeepMind 在 2023 年做了一件令人血壓飆升的事:他們把 Chinchilla 70B 當成一個通用壓縮器,用它去壓縮原始位元流——不只是文本,還包括它從未訓練過的圖像和音訊。結果:
文本壓縮率:遠比 gzip 好 圖像壓縮率:比 PNG 好 音訊壓縮率:比 FLAC 好
一個只訓練了語言的模型,居然能壓縮它從未見過的圖像——因為它學到了「通用的世界結構」。
從霍夫曼的字元編碼到 LLM 的數百億參數——壓縮的顆粒度越來越粗,但本質都是相同的。
任何「理解」的行為,本質上都是找到更短的描述。這不是比喻,而是 Freedman 論文的出發點。
第四章:Freedman 的建模——字串與「巨集」
Freedman 說的第一件事是:把數學推演當成字串。你在黑板上寫證明,本質上就是一串字元。所有「合法的證明字串」排列起來——那就是 FM。
但數學家從不這樣寫。他會說:「設 f 在 [a, b] 上連續,則 f 一致連續。」
「連續」是一段定義,展開約三行字元。「一致連續」是另一段,展開約五行。表面上 20 個字,完全展開後卻超過 100 個字元。繼續往下挖掘——一條「短句子」背後,是一棵極深的定義樹。
Freedman 為這種「名字 → 一段長字串」的約定起了個名字:巨集(macro)。
「連續」= 一個巨集 「一致連續」= 一個巨集 「積分」= 一個巨集(呼叫了「極限」、「分割」、「黎曼和」的巨集) 「勒貝格積分」= 一個巨集(呼叫了「測度」、「可測函數」的巨集) 「黎曼-勒貝格引理」= 一個巨集(呼叫了以上所有)
一條現代定理「完全展開」後往往是億級的字元,但數學家永遠只看最外層。
數學家的工作,就是不斷地創造巨集。一位數學家的一生,可能就只做了一件事——看到了一個之前沒人能壓縮的模式,然後給它起了一個名字。
高斯為「常態分佈」起了名字。黎曼為「流形」起了名字。伽羅瓦為「群」起了名字。康托爾為「集合」起了名字。圖靈為「可計算性」起了名字。夏農為「熵」起了名字。
你今天所學的所有數學,都是站在前人造好的巨集之上。如果無法層層壓縮,人類根本不可能學得動數學。
第五章:A_n vs F_n——兩種宇宙
到這裡,一切都還是直覺。Freedman 接下來要做的,是把這個直覺變成數學。
他引入了兩個代數物件(別緊張,用直覺來講):
A_n 就像拼樂高
你有一堆樂高積木——紅、藍、綠。先拼紅再拼藍最後拼綠,或是先綠再藍再紅——最後的模型都一樣。順序無關緊要,只在乎有哪些積木。
F_n 就像編辮子
先壓左邊的繩子再壓右邊的,和先壓右邊再壓左邊——得到的辮子完全不一樣。順序決定了一切。
Freedman 的定理說了一件「漂亮得像魔術」的事:
Freedman 的核心代數發現
在 An 中,只要使用 O(log n) 個巨集(對數級稀疏),就能讓表達力呈指數級擴張。而在 Fn 中,即使使用了 O(nk) 個巨集(多項式級稠密),表達力也只能線性擴張。
同樣的「創造巨集」策略,在兩種宇宙中結果天差地別——可壓縮性是結構性的。
用白話文翻譯:
在「樂高宇宙」裡,創造幾個巨集就能頂一萬個巨集——積木可自由組合,巨集之間也可以自由組合。 在「辮子宇宙」裡,創造再多巨集也救不了你——順序是僵固的,每個組合都得單獨記憶。
這個對比為何重要?因為它告訴我們:「可壓縮性」並非普世皆然,它只存在於特定的結構中。
數學裡的加法、乘法、集合的聯集、函數的複合——都是可交換或近似可交換的。所以數學是可壓縮的。
那麼人類的語言呢?主詞、動詞、受詞的順序至關重要——「狗咬人」和「人咬狗」不是同一回事。所以語言的壓縮程度遠低於數學。
那麼生物學呢?DNA 的序列至關重要——所以生物學長期以來是描述性的,不存在「F = m·a」等級的簡潔定律。
那麼LLM 的參數空間呢?這留到第八章再談。
第六章:MathLib 實證——讓數據說話
光有理論還不夠。Freedman 做了一件讓這篇論文從「哲學隨筆」升級為「硬科學」的事:把模型拿到真實的人類數學上驗證。
測試對象:MathLib——Lean 4 的數學形式化庫,內含 14 萬條定理,涵蓋代數、分析、拓樸、數論、範疇論……
對每條定理測量三個量:
- 深度(depth)
:巢狀深度 - 包裹長度(wrapped length)
:定義中的 token 數 - 展開長度(unwrapped length)
:完全展開後的原始符號數
結果 1:展開長度隨深度呈指數爆炸。
深度越深,完全展開後的字元數就呈指數增長。到了深度 10 以上,展開一條定理就需要數千萬個字元。
結果 2:包裹長度幾乎是一個常數。
然而,數學家寫出來的定義,無論深度是 2 還是 12,其長度幾乎不變——永遠就是那幾十個 token。
數學家從不寫很長的定義。每當一個東西變複雜,數學家的第一反應就是:先給它起個名字,然後用這個名字繼續。
展開長度指數爆炸,包裹長度卻巋然不動——數學家每到一層就創造一個巨集,把複雜性壓回來。
結果 3:數據完美符合 A_n 模型,並嚴重違反 F_n 模型。
Freedman 將兩種模型的理論曲線畫在同一張圖上。An 的指數擴張曲線嚴絲合縫地覆蓋在實測數據上,而 Fn 的線性曲線則差了好幾個數量級。
人類數學,正生活在 An 模型所預測的那個可壓縮子空間裡。這不是隱喻,而是可量測的事實。
第七章:三個古老問題的答案
現在可以回到開頭的三個問題了。Freedman 給出的答案,每一個都短到令人震撼。
問題一:人類究竟是怎麼構建數學知識的?
層層壓縮。每一代數學家看到前一代的成果,找出其中「可以起名字」的部分,創造新的巨集,然後在新巨集之上繼續推演。整部數學史,就是一部巨集的積累史。
歐幾里得為「點、線、面」起名字 → 笛卡兒為「座標」起名字 → 牛頓為「導數」起名字 → 柯西為「極限」起名字 → 康托爾為「集合」起名字 → 希爾伯特為「空間」起名字 → 格羅滕迪克為「概形」起名字……每一層,都比上一層壓縮了更多。
問題二:人類數學和形式數學的本質區別是什麼?
可壓縮 vs 不可壓縮。FM 裡大部分的定理是「合法但無聊的」——沒有結構、不能被起名字、無法被進一步利用。HM 是 FM 裡那個碰巧生活在類 An 子空間的小角落。
人類數學之所以是「人類的」,恰恰是因為人類的認知頻寬極其有限——我們只能在那個可壓縮的子空間裡活動。而那個子空間的存在,是宇宙賜予我們的禮物——如果它不存在,人類壓根兒就不會有數學。
問題三:未來的人類數學家怎麼和 AI 協同?
AI 的長處是在 FM 的巨大空間裡進行平行搜索——因為它具有我們所沒有的頻寬。而人類的長處是判斷哪些地方「值得起名字」——因為我們擁有五萬年的語言和抽象訓練。
這不是 AI 取代數學家,也不是數學家訓練 AI,而是兩種不同認知頻寬的分工協作。
Freedman 甚至提出了具體建議:在 MathLib 的依賴圖上執行 PageRank 加上壓縮度分析。一條定理如果被很多下游定理引用(PageRank 高),又能大幅壓縮下游內容(壓縮度高),那它就是核心定理——值得人類數學家投入精力,也值得 AI 優先搜索。
這把「什麼是重要的數學」從一種主觀判斷,變成了一個可以計算的量。
第八章:這對 AI 意味著什麼
第一個含義:AI 做數學的路線圖,清晰了。
自 2024 年以來:DeepMind 的 AlphaProof 在國際奧林匹亞競賽(IMO)上奪得銀牌;陶哲軒公開宣布 Lean 4 是他工作流程的一部分;DeepMind 的 FunSearch 在組合數學中發現了新定理;專門的數學 LLM 也如雨後春筍般湧現。
這一切,Freedman 的框架都給出了同一個解釋——它們在 FM 的巨大空間裡搜索,但它們能夠成功的地方,恰恰是 HM 已經壓縮過的地方。
AI 的數學能力,是站在人類兩千年「創造巨集」的成果之上的。脫離了 MathLib 裡那 14 萬條定理,AI 在純粹的 FM 裡尋找有意義的數學,就像在撒哈拉沙漠裡找一粒特定的沙子。
下一步的突破,不會來自於讓 AI 在 FM 裡搜索得更快——而是讓 AI 學會「自己創造巨集」。
第二個含義:LLM 是什麼?答案變清楚了。
DeepMind 那篇《Language Modeling Is Compression》(2023)給出了第一層答案:下一個 token 的預測 = 算術編碼下的壓縮率最大化。訓練時的交叉熵損失(cross-entropy loss),嚴格來說就是「對訓練集的壓縮率」的負對數。損失越低,壓縮率越高,理解越深——這不是比喻,而是數學上的恆等式。
但 Freedman 給出了第二層答案:LLM 會用巨集,但不會創造巨集。
LLM 在訓練時吞噬了整個網際網路——裡面充滿了人類兩千年來創造的巨集(如「微積分」、「演化論」、「民主」、「熵」、「注意力」……)。LLM 學會了在這些巨集之間自如地穿梭——所以它在「單步推理」上表現驚豔。
但在「長證明」上——它就崩潰了。一條需要創造新巨集的證明,LLM 很難穩定地完成。因為它沒有在訓練中見過這個巨集,它不會從零定義一個新概念,然後在新概念上繼續推演。
這正好是 Freedman 所說的「層層壓縮」中的「層」——每一層都是一次新的命名。LLM 在單一層內表現驚豔,一旦跨層就會斷裂。
第三個含義:為什麼 LLM 的規模化(scaling)可能存在上限。
如果智慧的本質是「層層壓縮」——創造巨集,並在巨集之上再創造巨集——那麼單純把模型變大,增加的是單一層的頻寬,而不是層數。
一個更大的 LLM,能用更精細的巨集、更大的詞彙表、更長的上下文,但它創造新巨集的能力,並沒有因為規模變大而獲得質的飛躍。
LLM 是一個「巨集的使用器」。真正的智慧是一個「巨集的生成器」。
——這呼應了《世界模型之爭》中,LeCun / 李飛飛 對上 Ilya 的那場口水戰。Ilya 說的是「用巨集」的上限還沒到,LeCun 說的則是「創造巨集」的能力根本還沒開始發展。
第八章半:數學之外——詩、畫、樂也是壓縮
Freedman 的論文從頭到尾只談數學。但如果「壓縮即理解」真的是宇宙級的事實,它就不該只在數學中成立。
我寫到這裡的時候,腦中浮現的是王維的詩句。
大漠孤煙直,長河落日圓。
短短十個字。沒有修飾、沒有形容詞、沒有一個「情」字。但你讀完這十個字,眼前立刻浮起一幅畫面——遼闊、空曠、孤直的一縷烽煙、渾圓的落日壓在地平線上。緊接著,一股說不出但確實能感受到的蒼涼與孤寂便油然而生。
這十個字背後,藏了多少資訊?視覺上,是一幅完整的西北邊塞畫面;幾何上,是「直」與「圓」的極簡構圖對比,一豎一圓撐起整個空間;時間上,是日落的剎那,一天將盡;心境上,是使者獨自遠行的孤獨、遠離故土的悵然;背景上,是盛唐邊塞詩的整套意象系統。用散文來複述,上千字都說不完。王維用十個字,把它壓縮成了一個可以在你腦中重新展開的種子。
這和 Freedman 論文裡講的「巨集」是同一回事。「大漠」、「孤煙」、「長河」、「落日」,每一個都是一個巨集——它呼叫了中文文學兩千年積累的意象、畫面與情緒。王維的天才不在於「寫得漂亮」,而在於挑出了那四個展開後資訊量最大的巨集,並將它們擺在一起。
音樂是另一個面向。貝多芬第五號交響曲的開頭只有四個音:ta-ta-ta-tum。但這四個音在整首交響曲中被變形、重組、上行、下行、反轉了數百次。一首四十分鐘的交響曲,本質上是從一個四音動機裡壓出來的——這就是作曲家所說的「主題與變奏」,用 Freedman 的話來講就是:創造一個巨集,然後在巨集的空間裡自由展開。
繪畫也是如此。齊白石畫蝦,不畫水、不畫水草,只畫蝦——你看到的是蝦,感受到的卻是整個池塘。留白不是「沒畫」,而是讓觀者自己在心中展開那一大片資訊。八大山人筆下一隻翻白眼的鳥,你卻能讀出整個明末遺民的心境。
為什麼所有藝術都指向同一件事?我的猜想是這樣的:
人類的大腦,能同時掌握的「維度」是有限的。由數千個腦細胞組成的注意力,在某一刻只能在一個相對低維的空間裡做關聯。
所以我們分科——有人專心在數學的維度裡尋找可壓縮的結構(幾何、群、流形),有人專心在語言的維度裡尋找(意象、節奏、雙關),有人專心在聲音的維度裡尋找(和聲、調性、動機),有人專心在視覺的維度裡尋找(構圖、比例、留白)。不是因為這些領域彼此無關,而是因為一個人扛不動所有的維度。我們用自己天生敏感的那一條通道去壓縮世界,彼此隔行如隔山——其實隔開我們的不是山,而是我們自身的認知頻寬。
而 LLM 第一次為「把維度連結起來」這件事提供了物理基礎。
擁有數千億參數的模型,其內部表徵空間的維度,遠遠超過任何一個人類個體所能同時調用的維度。於是,許多在我們看來「毫不相關」的東西——一首宋詞、一段巴哈的賦格曲、一個偏微分方程式、一張水墨畫——在那個高維空間裡,開始出現彼此對齊的方向。
LLM 的湧現,不是什麼神秘的玄學,而是:當壓縮的維度大到一定程度,原本散落在不同學科的巨集,開始能夠互相呼叫。「熵」這個巨集,在物理、資訊理論、經濟學、心理學中,突然變成了同一件事;「對稱」這個巨集,在群論、晶體、音樂、詩歌中,突然變成了同一件事。這大概就是跨域泛化,也就是所謂「世界模型」的雛形。
所以,數學、詩、畫、樂,不是四件不同的事,它們是同一件事在四種媒介上的投影。
王維不只是「詩人而已」,他是一個在語言維度上尋找可壓縮結構的人。歐拉不只是「數學家而已」,他是一個在符號維度上尋找可壓縮結構的人。貝多芬不只是「作曲家而已」,他是一個在時間維度上尋找可壓縮結構的人。齊白石不只是「畫家而已」,他是一個在視覺維度上尋找可壓縮結構的人。
殊途同歸。萬物為一。
我們每個普通人,也只是在自己最敏感的那條通道裡,做著同一件事——把複雜的世界壓縮成一個自己能握住的短描述,然後靠著這個短描述活下去。
Freedman 用代數模型證明了:數學之所以存在,是因為它活在一個類 A_n 的可壓縮子空間裡。我想補充一句他沒明說的話:人類文明之所以存在,是因為它活在無數個可壓縮子空間的聯集裡。數學只是其中最乾淨的一個,但不是唯一的一個。
第九章:四種機率觀的收束
寫到這裡,忍不住回頭看一眼這一年來部落格走過的路。
一條主線貫穿了四篇文章——每一篇都在用不同的視角看待同一個數學對象 P(x):
| 貝氏 | |||
| 熵 | |||
| 量子 QBism | |||
| 壓縮(本文) |
這四個視角都指向同一個公式:
L(x) = − log P(x)
- 貝氏學派:L(x) 是「意外」,驅動著信念的更新。
- 統計力學派:L(x) 是微觀狀態對熵的貢獻。
- QBism 學派:L(x) 是測量結果在下次下注時的權重。
- 壓縮學派:L(x) 是這個事件在最優編碼中所佔據的字元數。
它們是同一個數學物件,從四個不同的哲學位置觀看。
Freedman 這篇論文的意義在於——他把這個公式從「一個資訊理論工具」升級成了「數學本身的基礎」。數學之所以能存在,是因為宇宙可壓縮;人類之所以能做數學,是因為我們生活在 An 那樣一個低描述長度的結構裡。
第十章:壓縮留下的三個直覺
一、所有「理解」都是壓縮。
你理解了一個現象,意味著你能用比原始數據短得多的描述重新生成它。能做到這一點,你就理解了;做不到,你就只是在記憶。
二、數學獨特之處,在於它能做「巢狀的壓縮」。
不僅僅是一次壓縮,而是「在壓縮之上再壓縮」。每一代數學家將上一代的結果打包成一個名字,然後在那個名字上繼續工作。這個遞迴過程,是其他學科所沒有(或者沒有這麼強烈)的。
三、數學、詩、畫、樂,是同一件事在四種媒介上的投影。
每個領域的大師,都是在自己那條通道裡做著可壓縮子空間的挖掘者。王維的「大漠孤煙直,長河落日圓」與歐拉的 e^(iπ)+1=0,本質上是同構的——都是將龐大的資訊壓縮成一顆能在他人腦中重新展開的種子。我們分科,不是因為世界是割裂的,而是因為一個人的認知頻寬不夠。LLM 第一次讓這些分科的巨集在同一個高維空間裡開始互相呼叫——這就是所謂的湧現和泛化。
四、AI 要做真正的數學(和深度智慧任務),必須學會「創造巨集」而不只是「使用巨集」。
「使用巨集」是工程問題——擴大上下文、提高精度、疊加更多層次。「創造巨集」是認知問題——從混亂的現象中看出一個可以命名的模式。
目前所有 LLM 的規模化(scaling)都還停留在「使用巨集」的層面上。真正的突破——不管它被稱作 AGI、JEPA、世界模型還是其他什麼——一定會出現在 AI 開始自己創造巨集的那一天。
尾聲:你在讀這篇文章,就是在進行壓縮
Freedman 寫完這篇論文大概花了一年。我寫這篇文章,包含查資料和畫圖,大概花了八小時。你讀它,大概二十分鐘。
一年 → 八小時 → 二十分鐘。
每一次壓縮,都有損失。 但每一次壓縮,也都有獲得——你能在二十分鐘內帶走一個看待世界的全新方式。
你讀完後過幾天,記得的可能只剩下幾個關鍵詞:壓縮、巨集、樂高和辮子、MathLib、創造巨集而不是使用巨集。
這就是又一次的壓縮。
如果這幾個關鍵詞在日後你遇到其他問題時——學習一個新領域、讀一篇論文、訓練自己的模型、帶領一個學生、甚至只是思考一件事——還能被你呼叫出來,那就說明它們在你腦中成了新的巨集。
你也在做著 Freedman 所說的那件事。
數學家、程式設計師、作家、老師、學生——所有「用頭腦工作」的人,每天都在做同一件事:把世界的複雜,壓縮進一個可以被使用的短名字裡。
下一次有人問你「什麼是智慧」的時候——你可以換一種回答了。
不是「處理資訊」,也不是「模式識別」,更不只是「深度學習」。而是:
找到更短的描述。—— 壓縮,即是全部。
下一篇,回到《看見物理》系列的最後一站——對稱性。諾特定理、楊振寧、宇宙的骨架。對稱性和壓縮是一對孿生姊妹——有對稱就有守恆,有守恆就有可壓縮的描述。
—— 所以,實際上我們還是在同一個故事裡。
本文首發於「AI 學習筆記」部落格:https://Jason-Azure.github.io/ai-blog/posts/compression-is-all-you-need/微信公眾號:AI-lab學習筆記參考:Freedman, Compression is all you need: Modeling Mathematics, arXiv 2603.20396 (2026-03)