壓縮即是全部 —— 菲爾茲獎得主 Michael Freedman 給數學和 AI 的一封信

2026 年 3 月，菲爾茲獎得主 Michael Freedman 發表了一篇僅 30 多頁的論文，標題為《Compression is all you need》。他以一個優雅的代數模型，回答了三個古老的問題：人類如何構建數學？人類數學與形式數學的本質區別為何？未來人類數學家將如何與 AI 協作？答案只有兩個字——壓縮。

2017 年 6 月，Google Brain 的八位研究員將一篇論文拋上了 arXiv。

標題狂妄得不像論文：《Attention Is All You Need》。

九年過去了，這個標題成了 AI 史上最著名的七個單字。基於它的 Transformer 架構，撐起了 ChatGPT、Gemini、Claude、DeepSeek、數兆美元的市值，以及一整代人的焦慮。

2026 年 3 月 27 日，又一篇論文悄悄地登上了 arXiv。標題同樣是七個單字，格式如出一轍：

Compression is all you need: Modeling Mathematics

看到這個標題，任何從事 AI 工作的人都會下意識地莞爾一笑——「又一個蹭熱度的」。然而，當目光移到作者欄時，笑容瞬間凝結。

Michael Freedman。

他不是什麼隨處可見的機器學習工程師，而是1986 年菲爾茲獎得主、四維龐加萊猜想的證明者、過去二十年微軟 Station Q 的靈魂人物，當今世上份量最重的在世數學家之一。

他來寫 AI 嗎？不是的。他是在告訴所有搞 AI 的人：你們一直在用的那個詞——「壓縮」，其深度遠超你們的想像。

這篇文章並非《Attention Is All You Need》那樣的工程突破，而是一封信。一位數學家，用他畢生訓練出來的直覺，回答了三個困擾人類數千年的問題：

人類究竟是怎麼構建數學知識的？
人類所做的數學，與形式化的「純邏輯數學」有何本質區別？
未來的人類數學家，到底該如何與 AI 協同工作？

他給出的答案只有一個詞：壓縮。

第一章：Freedman 是誰

先釐清為什麼這個人一開口，AI 圈就必須洗耳恭聽。

1981 年，年僅三十的 Freedman 在加州大學聖地牙哥分校解決了四維龐加萊猜想——這個難題懸宕了 77 年。三維版本讓佩雷爾曼在 2006 年贏得菲爾茲獎（但他拒絕領取）；五維以上的版本早在六〇年代就被攻克。唯獨四維——這個最要命的維度——是由 Freedman 攻下來的。

1986 年，柏克萊，國際數學家大會。Freedman 領走了菲爾茲獎。

1997 年，Freedman 做了一件數學家極少會做的事——從學術界出走。微軟為他打造了一個幾乎是量身訂做的部門：Station Q，目標只有一個：用數學家的思維打造拓撲量子電腦。他擔任主任，一待就是二十五年。

2023 年，他回到哈佛大學數學與應用中心（CMSA），換了一個身分：思考 AI 與數學的關係。

因此，當 Freedman 這個人在 2026 年 3 月丟出一篇名為《Compression is all you need》的論文——這不是某個追熱點的研究員，而是一個一輩子浸淫在數學內部觀看世界的人，突然轉身對所有人說：

「我看清楚了一件事。你們要聽嗎？」

第二章：一個讓所有人尷尬的事實

Freedman 論文的切入點，是一個數學界眾所周知、但幾乎無人能解釋的尷尬事實。

首先建立兩個概念：

形式數學（Formal Mathematics, FM）
：所有合乎邏輯規則的推演。
人類數學（Human Mathematics, HM）
：人類真正寫下、收錄、引用的那部分數學。

FM 的空間有多大？假設你有 n 個基礎符號，組合出來的「合法推演」數量是指數級的——當 n 達到上百後，這個數量就會超過整個宇宙的原子總數。

那麼 HM 呢？從歐幾里得到今天，所有數學家加起來寫過的定理，約為百萬量級。Lean 4 的 MathLib 資料庫收錄了其中約 14 萬條。

將這兩個數字並排來看

FM：> 10⁸⁰HM：~ 10⁵中間隔了 75 個零。

人類數學，在形式數學這個宇宙中，是連一粒塵埃都算不上的小角落。

而且——為什麼是這一粒？

FM 裡充斥著無窮無盡「合法但無聊」的定理，例如：「對任意整數 n，n + 0 = n」，「對任意整數 n，n + 0 + 0 = n」，「對任意整數 n，n + 0 + 0 + 0 = n」……每一條都合法，但每一條都毫無意義。人類數學家從不寫這些。

一百年來，這個問題有過無數哲學式的回答：「美」、「簡潔」、「有用」、「深刻」——這些都只是詞語的遊戲。沒有一個是數學上的答案。

直到 Freedman 在 2026 年給出了第一個可供計算的回答：

因為 HM 是 FM 裡那個「可壓縮」的子集合。

第三章：壓縮——先站在日常的地面上理解

Freedman 所說的「壓縮」是什麼意思？先別想數學，先想幾個你已經懂的例子。

例子一：霍夫曼編碼

你家貓咪叫小花。照片中出現最多的動作是「睡覺」（4000 次），其次是「吃飯」（3000）、「抓沙發」（2000）、「發呆」（1000）。

使用固定 8 位元編碼：總共 80000 位元。而霍夫曼編碼：「睡覺→0；吃飯→10；抓沙發→110；發呆→111」——總共只要19000 位元。壓縮率達到 4 倍，且沒有丟失任何資訊。

只要事物的分佈是不均勻的，就存在壓縮的空間。

例子二：牛頓三大運動定律

宇宙中每一秒都在發生無數次的運動：蘋果落地、月球繞地、彈簧振動、子彈出膛、潮汐起落……若想記錄這所有運動，需要多少資訊？

根本不需要。

你只需記住 F = m·a，再加上慣性定律和作用力與反作用力定律，就能重新生成上面所有的運動。

牛頓三大定律是一個僅有幾十個字元的程式，它編碼了整個古典力學。

例子三：zip 壓縮檔

「to be or not to be, that is the question; to be」——把反覆出現的「to be」和「the」命名為 A、B，之後只寫名字。這就是 LZ77 演算法（zip / gzip / PNG 的底層技術）的原理，誕生於 1977 年。

例子四：大型語言模型

將整個網際網路餵給大型語言模型（LLM）——數兆字、數百萬小時的文字。訓練完成後，得到一個擁有數百億參數的模型（約幾百 GB）。它能夠生成類似訓練集裡的任何內容。

這件事，用資訊理論的語言來說就是：LLM 是對網際網路的一次有損壓縮。

DeepMind 在 2023 年做了一件令人血壓飆升的事：他們把 Chinchilla 70B 當成一個通用壓縮器，用它去壓縮原始位元流——不只是文本，還包括它從未訓練過的圖像和音訊。結果：

文本壓縮率：遠比 gzip 好
圖像壓縮率：比 PNG 好
音訊壓縮率：比 FLAC 好

一個只訓練了語言的模型，居然能壓縮它從未見過的圖像——因為它學到了「通用的世界結構」。

從霍夫曼的字元編碼到 LLM 的數百億參數——壓縮的顆粒度越來越粗，但本質都是相同的。

任何「理解」的行為，本質上都是找到更短的描述。
這不是比喻，而是 Freedman 論文的出發點。

第四章：Freedman 的建模——字串與「巨集」

Freedman 說的第一件事是：把數學推演當成字串。你在黑板上寫證明，本質上就是一串字元。所有「合法的證明字串」排列起來——那就是 FM。

但數學家從不這樣寫。他會說：「設 f 在 [a, b] 上連續，則 f 一致連續。」

「連續」是一段定義，展開約三行字元。「一致連續」是另一段，展開約五行。表面上 20 個字，完全展開後卻超過 100 個字元。繼續往下挖掘——一條「短句子」背後，是一棵極深的定義樹。

Freedman 為這種「名字 → 一段長字串」的約定起了個名字：巨集（macro）。

「連續」= 一個巨集
「一致連續」= 一個巨集
「積分」= 一個巨集（呼叫了「極限」、「分割」、「黎曼和」的巨集）
「勒貝格積分」= 一個巨集（呼叫了「測度」、「可測函數」的巨集）
「黎曼-勒貝格引理」= 一個巨集（呼叫了以上所有）

一條現代定理「完全展開」後往往是億級的字元，但數學家永遠只看最外層。

數學家的工作，就是不斷地創造巨集。
一位數學家的一生，可能就只做了一件事——看到了一個之前沒人能壓縮的模式，然後給它起了一個名字。

高斯為「常態分佈」起了名字。黎曼為「流形」起了名字。伽羅瓦為「群」起了名字。康托爾為「集合」起了名字。圖靈為「可計算性」起了名字。夏農為「熵」起了名字。

你今天所學的所有數學，都是站在前人造好的巨集之上。如果無法層層壓縮，人類根本不可能學得動數學。

第五章：A_n vs F_n——兩種宇宙

到這裡，一切都還是直覺。Freedman 接下來要做的，是把這個直覺變成數學。

他引入了兩個代數物件（別緊張，用直覺來講）：

A_n 就像拼樂高

你有一堆樂高積木——紅、藍、綠。先拼紅再拼藍最後拼綠，或是先綠再藍再紅——最後的模型都一樣。順序無關緊要，只在乎有哪些積木。

F_n 就像編辮子

先壓左邊的繩子再壓右邊的，和先壓右邊再壓左邊——得到的辮子完全不一樣。順序決定了一切。

Freedman 的定理說了一件「漂亮得像魔術」的事：

Freedman 的核心代數發現

在 A_n 中，只要使用 O(log n) 個巨集（對數級稀疏），就能讓表達力呈指數級擴張。而在 F_n 中，即使使用了 O(n^k) 個巨集（多項式級稠密），表達力也只能線性擴張。

同樣的「創造巨集」策略，在兩種宇宙中結果天差地別——可壓縮性是結構性的。

用白話文翻譯：

在「樂高宇宙」裡，創造幾個巨集就能頂一萬個巨集——積木可自由組合，巨集之間也可以自由組合。
在「辮子宇宙」裡，創造再多巨集也救不了你——順序是僵固的，每個組合都得單獨記憶。

這個對比為何重要？因為它告訴我們：「可壓縮性」並非普世皆然，它只存在於特定的結構中。

數學裡的加法、乘法、集合的聯集、函數的複合——都是可交換或近似可交換的。所以數學是可壓縮的。

那麼人類的語言呢？主詞、動詞、受詞的順序至關重要——「狗咬人」和「人咬狗」不是同一回事。所以語言的壓縮程度遠低於數學。

那麼生物學呢？DNA 的序列至關重要——所以生物學長期以來是描述性的，不存在「F = m·a」等級的簡潔定律。

那麼LLM 的參數空間呢？這留到第八章再談。

第六章：MathLib 實證——讓數據說話

光有理論還不夠。Freedman 做了一件讓這篇論文從「哲學隨筆」升級為「硬科學」的事：把模型拿到真實的人類數學上驗證。

測試對象：MathLib——Lean 4 的數學形式化庫，內含 14 萬條定理，涵蓋代數、分析、拓樸、數論、範疇論……

對每條定理測量三個量：

深度（depth）
：巢狀深度
包裹長度（wrapped length）
：定義中的 token 數
展開長度（unwrapped length）
：完全展開後的原始符號數

結果 1：展開長度隨深度呈指數爆炸。

深度越深，完全展開後的字元數就呈指數增長。到了深度 10 以上，展開一條定理就需要數千萬個字元。

結果 2：包裹長度幾乎是一個常數。

然而，數學家寫出來的定義，無論深度是 2 還是 12，其長度幾乎不變——永遠就是那幾十個 token。

數學家從不寫很長的定義。
每當一個東西變複雜，數學家的第一反應就是：先給它起個名字，然後用這個名字繼續。

展開長度指數爆炸，包裹長度卻巋然不動——數學家每到一層就創造一個巨集，把複雜性壓回來。

結果 3：數據完美符合 A_n 模型，並嚴重違反 F_n 模型。

Freedman 將兩種模型的理論曲線畫在同一張圖上。A_n 的指數擴張曲線嚴絲合縫地覆蓋在實測數據上，而 F_n 的線性曲線則差了好幾個數量級。

人類數學，正生活在 A_n 模型所預測的那個可壓縮子空間裡。這不是隱喻，而是可量測的事實。

第七章：三個古老問題的答案

現在可以回到開頭的三個問題了。Freedman 給出的答案，每一個都短到令人震撼。

問題一：人類究竟是怎麼構建數學知識的？

層層壓縮。每一代數學家看到前一代的成果，找出其中「可以起名字」的部分，創造新的巨集，然後在新巨集之上繼續推演。整部數學史，就是一部巨集的積累史。

歐幾里得為「點、線、面」起名字 → 笛卡兒為「座標」起名字 → 牛頓為「導數」起名字 → 柯西為「極限」起名字 → 康托爾為「集合」起名字 → 希爾伯特為「空間」起名字 → 格羅滕迪克為「概形」起名字……每一層，都比上一層壓縮了更多。

問題二：人類數學和形式數學的本質區別是什麼？

可壓縮 vs 不可壓縮。FM 裡大部分的定理是「合法但無聊的」——沒有結構、不能被起名字、無法被進一步利用。HM 是 FM 裡那個碰巧生活在類 A_n 子空間的小角落。

人類數學之所以是「人類的」，恰恰是因為人類的認知頻寬極其有限——我們只能在那個可壓縮的子空間裡活動。而那個子空間的存在，是宇宙賜予我們的禮物——如果它不存在，人類壓根兒就不會有數學。

問題三：未來的人類數學家怎麼和 AI 協同？

AI 的長處是在 FM 的巨大空間裡進行平行搜索——因為它具有我們所沒有的頻寬。而人類的長處是判斷哪些地方「值得起名字」——因為我們擁有五萬年的語言和抽象訓練。

這不是 AI 取代數學家，也不是數學家訓練 AI，而是兩種不同認知頻寬的分工協作。

Freedman 甚至提出了具體建議：在 MathLib 的依賴圖上執行 PageRank 加上壓縮度分析。一條定理如果被很多下游定理引用（PageRank 高），又能大幅壓縮下游內容（壓縮度高），那它就是核心定理——值得人類數學家投入精力，也值得 AI 優先搜索。

這把「什麼是重要的數學」從一種主觀判斷，變成了一個可以計算的量。

第八章：這對 AI 意味著什麼

第一個含義：AI 做數學的路線圖，清晰了。

自 2024 年以來：DeepMind 的 AlphaProof 在國際奧林匹亞競賽（IMO）上奪得銀牌；陶哲軒公開宣布 Lean 4 是他工作流程的一部分；DeepMind 的 FunSearch 在組合數學中發現了新定理；專門的數學 LLM 也如雨後春筍般湧現。

這一切，Freedman 的框架都給出了同一個解釋——它們在 FM 的巨大空間裡搜索，但它們能夠成功的地方，恰恰是 HM 已經壓縮過的地方。

AI 的數學能力，是站在人類兩千年「創造巨集」的成果之上的。脫離了 MathLib 裡那 14 萬條定理，AI 在純粹的 FM 裡尋找有意義的數學，就像在撒哈拉沙漠裡找一粒特定的沙子。

下一步的突破，不會來自於讓 AI 在 FM 裡搜索得更快——而是讓 AI 學會「自己創造巨集」。

第二個含義：LLM 是什麼？答案變清楚了。

DeepMind 那篇《Language Modeling Is Compression》（2023）給出了第一層答案：下一個 token 的預測 = 算術編碼下的壓縮率最大化。訓練時的交叉熵損失（cross-entropy loss），嚴格來說就是「對訓練集的壓縮率」的負對數。損失越低，壓縮率越高，理解越深——這不是比喻，而是數學上的恆等式。

但 Freedman 給出了第二層答案：LLM 會用巨集，但不會創造巨集。

LLM 在訓練時吞噬了整個網際網路——裡面充滿了人類兩千年來創造的巨集（如「微積分」、「演化論」、「民主」、「熵」、「注意力」……）。LLM 學會了在這些巨集之間自如地穿梭——所以它在「單步推理」上表現驚豔。

但在「長證明」上——它就崩潰了。一條需要創造新巨集的證明，LLM 很難穩定地完成。因為它沒有在訓練中見過這個巨集，它不會從零定義一個新概念，然後在新概念上繼續推演。

這正好是 Freedman 所說的「層層壓縮」中的「層」——每一層都是一次新的命名。LLM 在單一層內表現驚豔，一旦跨層就會斷裂。

第三個含義：為什麼 LLM 的規模化（scaling）可能存在上限。

如果智慧的本質是「層層壓縮」——創造巨集，並在巨集之上再創造巨集——那麼單純把模型變大，增加的是單一層的頻寬，而不是層數。

一個更大的 LLM，能用更精細的巨集、更大的詞彙表、更長的上下文，但它創造新巨集的能力，並沒有因為規模變大而獲得質的飛躍。

LLM 是一個「巨集的使用器」。真正的智慧是一個「巨集的生成器」。

——這呼應了《世界模型之爭》中，LeCun / 李飛飛對上 Ilya 的那場口水戰。Ilya 說的是「用巨集」的上限還沒到，LeCun 說的則是「創造巨集」的能力根本還沒開始發展。

第八章半：數學之外——詩、畫、樂也是壓縮

Freedman 的論文從頭到尾只談數學。但如果「壓縮即理解」真的是宇宙級的事實，它就不該只在數學中成立。

我寫到這裡的時候，腦中浮現的是王維的詩句。

大漠孤煙直，長河落日圓。

短短十個字。沒有修飾、沒有形容詞、沒有一個「情」字。但你讀完這十個字，眼前立刻浮起一幅畫面——遼闊、空曠、孤直的一縷烽煙、渾圓的落日壓在地平線上。緊接著，一股說不出但確實能感受到的蒼涼與孤寂便油然而生。

這十個字背後，藏了多少資訊？視覺上，是一幅完整的西北邊塞畫面；幾何上，是「直」與「圓」的極簡構圖對比，一豎一圓撐起整個空間；時間上，是日落的剎那，一天將盡；心境上，是使者獨自遠行的孤獨、遠離故土的悵然；背景上，是盛唐邊塞詩的整套意象系統。用散文來複述，上千字都說不完。王維用十個字，把它壓縮成了一個可以在你腦中重新展開的種子。

這和 Freedman 論文裡講的「巨集」是同一回事。「大漠」、「孤煙」、「長河」、「落日」，每一個都是一個巨集——它呼叫了中文文學兩千年積累的意象、畫面與情緒。王維的天才不在於「寫得漂亮」，而在於挑出了那四個展開後資訊量最大的巨集，並將它們擺在一起。

音樂是另一個面向。貝多芬第五號交響曲的開頭只有四個音：ta-ta-ta-tum。但這四個音在整首交響曲中被變形、重組、上行、下行、反轉了數百次。一首四十分鐘的交響曲，本質上是從一個四音動機裡壓出來的——這就是作曲家所說的「主題與變奏」，用 Freedman 的話來講就是：創造一個巨集，然後在巨集的空間裡自由展開。

繪畫也是如此。齊白石畫蝦，不畫水、不畫水草，只畫蝦——你看到的是蝦，感受到的卻是整個池塘。留白不是「沒畫」，而是讓觀者自己在心中展開那一大片資訊。八大山人筆下一隻翻白眼的鳥，你卻能讀出整個明末遺民的心境。

為什麼所有藝術都指向同一件事？我的猜想是這樣的：

人類的大腦，能同時掌握的「維度」是有限的。由數千個腦細胞組成的注意力，在某一刻只能在一個相對低維的空間裡做關聯。

所以我們分科——有人專心在數學的維度裡尋找可壓縮的結構（幾何、群、流形），有人專心在語言的維度裡尋找（意象、節奏、雙關），有人專心在聲音的維度裡尋找（和聲、調性、動機），有人專心在視覺的維度裡尋找（構圖、比例、留白）。不是因為這些領域彼此無關，而是因為一個人扛不動所有的維度。我們用自己天生敏感的那一條通道去壓縮世界，彼此隔行如隔山——其實隔開我們的不是山，而是我們自身的認知頻寬。

而 LLM 第一次為「把維度連結起來」這件事提供了物理基礎。

擁有數千億參數的模型，其內部表徵空間的維度，遠遠超過任何一個人類個體所能同時調用的維度。於是，許多在我們看來「毫不相關」的東西——一首宋詞、一段巴哈的賦格曲、一個偏微分方程式、一張水墨畫——在那個高維空間裡，開始出現彼此對齊的方向。

LLM 的湧現，不是什麼神秘的玄學，而是：當壓縮的維度大到一定程度，原本散落在不同學科的巨集，開始能夠互相呼叫。「熵」這個巨集，在物理、資訊理論、經濟學、心理學中，突然變成了同一件事；「對稱」這個巨集，在群論、晶體、音樂、詩歌中，突然變成了同一件事。這大概就是跨域泛化，也就是所謂「世界模型」的雛形。

所以，數學、詩、畫、樂，不是四件不同的事，它們是同一件事在四種媒介上的投影。

王維不只是「詩人而已」，他是一個在語言維度上尋找可壓縮結構的人。歐拉不只是「數學家而已」，他是一個在符號維度上尋找可壓縮結構的人。貝多芬不只是「作曲家而已」，他是一個在時間維度上尋找可壓縮結構的人。齊白石不只是「畫家而已」，他是一個在視覺維度上尋找可壓縮結構的人。

殊途同歸。萬物為一。

我們每個普通人，也只是在自己最敏感的那條通道裡，做著同一件事——把複雜的世界壓縮成一個自己能握住的短描述，然後靠著這個短描述活下去。

Freedman 用代數模型證明了：數學之所以存在，是因為它活在一個類 A_n 的可壓縮子空間裡。我想補充一句他沒明說的話：人類文明之所以存在，是因為它活在無數個可壓縮子空間的聯集裡。數學只是其中最乾淨的一個，但不是唯一的一個。

第九章：四種機率觀的收束

寫到這裡，忍不住回頭看一眼這一年來部落格走過的路。

一條主線貫穿了四篇文章——每一篇都在用不同的視角看待同一個數學對象 P(x)：

視角	P(x) 是什麼	核心論述	代表人物
貝氏	信念	證據到了就更新	Bayes / Jaynes
熵	無知	熵是無知的度量	Boltzmann / Shannon
量子 QBism	實在	機率是世界本身的狀態	Born / Fuchs
壓縮（本文）	理解	-log P 就是描述長度	Shannon / Freedman

這四個視角都指向同一個公式：

L(x) = − log P(x)

貝氏學派：L(x) 是「意外」，驅動著信念的更新。
統計力學派：L(x) 是微觀狀態對熵的貢獻。
QBism 學派：L(x) 是測量結果在下次下注時的權重。
壓縮學派：L(x) 是這個事件在最優編碼中所佔據的字元數。

它們是同一個數學物件，從四個不同的哲學位置觀看。

Freedman 這篇論文的意義在於——他把這個公式從「一個資訊理論工具」升級成了「數學本身的基礎」。數學之所以能存在，是因為宇宙可壓縮；人類之所以能做數學，是因為我們生活在 A_n 那樣一個低描述長度的結構裡。

第十章：壓縮留下的三個直覺

一、所有「理解」都是壓縮。

你理解了一個現象，意味著你能用比原始數據短得多的描述重新生成它。能做到這一點，你就理解了；做不到，你就只是在記憶。

二、數學獨特之處，在於它能做「巢狀的壓縮」。

不僅僅是一次壓縮，而是「在壓縮之上再壓縮」。每一代數學家將上一代的結果打包成一個名字，然後在那個名字上繼續工作。這個遞迴過程，是其他學科所沒有（或者沒有這麼強烈）的。

三、數學、詩、畫、樂，是同一件事在四種媒介上的投影。

每個領域的大師，都是在自己那條通道裡做著可壓縮子空間的挖掘者。王維的「大漠孤煙直，長河落日圓」與歐拉的 e^(iπ)+1=0，本質上是同構的——都是將龐大的資訊壓縮成一顆能在他人腦中重新展開的種子。我們分科，不是因為世界是割裂的，而是因為一個人的認知頻寬不夠。LLM 第一次讓這些分科的巨集在同一個高維空間裡開始互相呼叫——這就是所謂的湧現和泛化。

四、AI 要做真正的數學（和深度智慧任務），必須學會「創造巨集」而不只是「使用巨集」。

「使用巨集」是工程問題——擴大上下文、提高精度、疊加更多層次。「創造巨集」是認知問題——從混亂的現象中看出一個可以命名的模式。

目前所有 LLM 的規模化（scaling）都還停留在「使用巨集」的層面上。真正的突破——不管它被稱作 AGI、JEPA、世界模型還是其他什麼——一定會出現在 AI 開始自己創造巨集的那一天。

尾聲：你在讀這篇文章，就是在進行壓縮

Freedman 寫完這篇論文大概花了一年。我寫這篇文章，包含查資料和畫圖，大概花了八小時。你讀它，大概二十分鐘。

一年 → 八小時 → 二十分鐘。

每一次壓縮，都有損失。 但每一次壓縮，也都有獲得——你能在二十分鐘內帶走一個看待世界的全新方式。

你讀完後過幾天，記得的可能只剩下幾個關鍵詞：壓縮、巨集、樂高和辮子、MathLib、創造巨集而不是使用巨集。

這就是又一次的壓縮。

如果這幾個關鍵詞在日後你遇到其他問題時——學習一個新領域、讀一篇論文、訓練自己的模型、帶領一個學生、甚至只是思考一件事——還能被你呼叫出來，那就說明它們在你腦中成了新的巨集。

你也在做著 Freedman 所說的那件事。

數學家、程式設計師、作家、老師、學生——所有「用頭腦工作」的人，每天都在做同一件事：把世界的複雜，壓縮進一個可以被使用的短名字裡。

下一次有人問你「什麼是智慧」的時候——你可以換一種回答了。

不是「處理資訊」，也不是「模式識別」，更不只是「深度學習」。而是：

找到更短的描述。
—— 壓縮，即是全部。

下一篇，回到《看見物理》系列的最後一站——對稱性。諾特定理、楊振寧、宇宙的骨架。對稱性和壓縮是一對孿生姊妹——有對稱就有守恆，有守恆就有可壓縮的描述。

—— 所以，實際上我們還是在同一個故事裡。

本文首發於「AI 學習筆記」部落格：https://Jason-Azure.github.io/ai-blog/posts/compression-is-all-you-need/微信公眾號：AI-lab學習筆記參考：Freedman, Compression is all you need: Modeling Mathematics, arXiv 2603.20396 (2026-03)