如果AI的數學能力照現在的速度發展下去,我們(數學研究人員)很快就會面臨一場危機。
數學界最高榮譽菲爾茲獎得主——提摩西·高爾斯(Timothy Gowers),在最新體驗過ChatGPT 5.5 Pro後,為學生們拉響了紅色警報。
這對博士生的衝擊,尤其迫切。
事情是這樣的,這位任教於劍橋大學的數學大咖,最近取得了尊爵不凡的5.5 Pro「優速通」權限。
拿到新玩具後,高爾斯隨手把幾道加法數論的公開難題丟給AI,想看看它到底有多大能耐。
但接下來發生的事,完全出乎他的意料。
不到兩小時,GPT小老弟獨立完成了一項他認為「完全夠格寫進博士論文」的數學成果。
全程,高爾斯教授沒有提供任何數學層面的指導。
他唯一要做的事就是:
嗯你這個想法不錯,試著展開看看?
可以啊,能幫我寫成LaTeX預印本格式嗎?
這一刻,高爾斯真切地感受到了當代年輕人那種令人窒息的焦慮——
當AI已經能獨立攻克這種等級的難題,正在攻讀博士的年輕數學家們,未來該何去何從?
連他都給不出明確的答案。
唯一能做的,就是盡快為學生們找到新的出路。
在AGI真的降臨之前,重新找到數學學習的真正價值,然後迅速轉向。
對學生負有責任的數學系,應該緊急為此做好準備。
但先別急著焦慮,因為另一位菲爾茲獎得主——陶哲軒,有很多話想跟大家說。
畢竟,他可說是AI與數學交界線上的先鋒了,前陣子還共同創立了一個AI4S組織,目的正是幫助年輕人尋找AI時代的新出路。
無獨有偶,陶哲軒剛剛也發表了最新感悟:
數學證明的「消化」問題,才是AI時代人類數學家最無可取代的價值所在。
不過,相較於陶哲軒,高爾斯這次的反應或許更有看頭。
畢竟陶哲軒已經是「AI老玩家」了(哈哈),相對來說比較淡定。
而高爾斯這次是真的有點「癱軟」了(不是真的),直接暴怒般地發了一篇超級長文。
真的非常非常長……
以下是整理好,更方便大家閱讀的版本。
敬請享用。
菲爾茲獎得主的ChatGPT 5.5 Pro數學實驗
故事的起點,其實是一篇很有意思的論文。
加法數論大咖梅爾·納桑森(Mel Nathanson)寫了一篇論文,裡面列了一堆關於整數集合求和性質的公開問題。
這類問題的特色是方向明確,難度適中,數量又多,本來是留給剛入門的博士生練手、衝第一篇頂尖期刊的黃金素材。
結果被高爾斯拿來刁難ChatGPT 5.5 Pro了。
他丟給AI的問題大概是這樣的:
給定一個整數集合A,已知它有k個元素(|A|=k),也知道它的二重求和集(簡單說就是集合裡所有元素兩兩相加得到的新集合,記為2A)有多少個元素,那麼A的直徑最小能是多少?
納桑森自己已經證明了一個指數級的上界(2^k - 1),但一直懷疑還能再優化。
ChatGPT 5.5 Pro思考了17分零5秒。
然後它給出了一個二次上界的構造,而且是理論上最優的。
它的核心思路是用Sidon集(一種求和集大小最大化的特殊集合)和等差數列來做組合構造。
說得通俗點,就像堆積木,AI選了兩種特殊積木。
一種叫Sidon集,裡面任意兩個不同元素的總和都不一樣,能讓求和集的規模最大化。
另一種是我們上學都學過的等差數列,把這兩種積木巧妙組合起來,就堆出了滿足條件的最小直徑集合。
納桑森原本的證明用了歸納法,本質上也在做類似的積木組合,但用的是2的冪次這種效率較低的Sidon集。
但這就像用大積木堆小房子,難免浪費空間,所以才得到了指數級的大直徑。
ChatGPT 5.5 Pro則是直接換了一種已知的更高效Sidon集。
這種集合的直徑是二次的(簡單說就是k個元素的話,直徑大概是k²等級),比指數級(2^k)小了不只一個數量級,相當於用精緻的小積木精準蓋房,空間利用率直接拉到最滿。
可能有朋友會說,這不就是把既有的數學工具重新拼湊一下嗎?
還真沒錯。
但高爾斯自己也承認,相當多的人類數學研究,本質上也是在組合已知的知識和證明技巧。
關鍵在於,納桑森本人沒有想到這一步,而ChatGPT想到了。
高爾斯接著又問了一個相關的進階版問題——
把二重求和集換成限制求和集,也就是這個集合裡的元素兩兩相加時,要求兩個元素不能是同一個,其他條件不變,還能不能找到最小直徑?
這個問題毫無懸念也被解決了。
然後他讓ChatGPT把兩個結果合併寫成一篇學術筆記,47分鐘後,一份標準的LaTeX預印本就出爐了。
再來,事情開始變得更有意思了,高爾斯又加了難度,問了一般情形下k重求和集的直徑問題。
這個問題要難得多,因為對於一般的k,我們甚至不完全知道哪些求和集大小是可以被實現的,連基本的構造框架都缺。
不過好在麻省理工學院(MIT)的學生艾薩克·拉賈戈帕爾(Isaac Rajagopal)已經做了開創性的工作,他證明了h重求和集直徑的指數級依賴關係。
高爾斯想看看GPT 5.5 Pro能不能在艾薩克的基礎上做改進,沒想到,AI直接上演了兩連跳操作,還獨創了k-解離集合構造。
接下來發生的事,按時間軸整理一下:
第一輪,ChatGPT思考了16分41秒,基於解離集合的創新思維把上界從指數級改進到了次指數級。
第二輪,高爾斯讓它寫成預印本,花了47分39秒。
第三輪,艾薩克本人審閱後,認為論證看起來是對的,而且論證邏輯嚴謹,k-解離集合的運用非常巧妙。
第四輪,高爾斯貪心了,問ChatGPT能不能進一步推進到多項式界。
第五輪,ChatGPT思考了13分33秒,提出微調k-解離集合可以做到,但有幾個技術細節需要驗證。
第六輪,高爾斯讓它自己驗證,9分12秒後搞定核心障礙。
第七輪,寫成預印本,31分40秒。
第八輪,艾薩克再次審閱,判斷結論基本成立。而且他特別指出,不只是逐行正確,在思維層面上也是對的,也就是說ChatGPT確實貢獻了新的想法。
而整個過程,高爾斯的數學輸入為零。
他做的全部工作就是當一個專案經理(數學版)——
提出需求,確認方向,要求交付。
數學本身,全是ChatGPT在做。
AI拉高了數學博士生的入門門檻
這件事如果只是一個酷炫的展示,倒也還好。
但高爾斯看到的是兩個正在逼近的危機。
首先,一個很現實的問題是,這個AI搞出來的成果該怎麼處理?
如果是人類數學家做出來的,這完全夠得上發表。
但現在主要工作是AI完成的——
arXiv已經明確拒絕AI產生的內容,傳統期刊顯然也不會接受。
那它該放在哪?
高爾斯自己提了一個構想,也許應該建一個專門的AI數學成果典藏庫,並有一定的審核流程。
例如需要人類數學家確認正確性,或者通過形式化證明助手驗證,但也不要讓審核本身變成巨大的工作量。
坦白說,這個問題目前沒有答案,所以現在這份成果就掛在高爾斯的部落格上,靠一個連結存在著。
成果歸屬問題之外,才是高爾斯真正焦慮的地方——
數學培育體系被釜底抽薪。
訓練博士生做研究,最經典的途徑就是給新手一個難度適中的公開問題入門。
納桑森論文裡的那些問題,原本就是完美的素材。
但現在,ChatGPT 5.5 Pro兩個小時就解決了。
這直接把入門門檻墊高了,因為以前你只需要證明一個沒人證過的東西,現在你得證明一個AI也證不了的東西。
高爾斯倒也沒有完全悲觀,他給出了兩個緩衝空間。
一個是,博士生也可以用AI。
未來科研門檻可以不再是硬碰硬挑戰「AI解不出的題」,而是在人機協作下,做出AI單獨辦不到的成果。
高爾斯自己最近也在大量做這種人機協作的數學研究,他說AI確實能提供有用的貢獻,但還沒到能獨立產生顛覆性想法的地步。
另一個是,AI最容易突破的其實是組合數學。
因為組合學本質上是從問題出發的逆向推理,而其他數學分支更多是從想法出發的正向探索。
後者需要判斷什麼觀察是有趣的、什麼方向值得深入,這種審美判斷對AI來說可能更難,目前仍然是人類佔優勢。
但他也特別強調以上都只適用於當下的AI,大型語言模型迭代太快,現在的判斷可能幾個月就過時了。
甚至還補了一刀:
如果一個人做數學的目的是把自己的名字永遠刻在某個定理或定義上,追求「冠名永生」,那這種時代紅利可能很快就會徹底消失,對所有人都一樣。
高爾斯用一個思想實驗點出本質:
假設一位數學家透過和AI長時間對話解決了一個重大問題,數學家起了引導作用,但主要想法和全部技術工作都是AI完成的,我們會認為這是這位數學家的重大成就嗎?
高爾斯的答案是:不會。
既然如此,那AI時代學數學還有什麼意義?
高爾斯說,就像優秀的程式設計師比一般人更擅長Vibe coding,真正做過研究的數學家也會更擅長和AI協作。因為你對問題解決過程本身的理解越深,你用AI的能力就越強。
數學本身是一種高度可遷移的底層思維能力,未來數學研究者或許失去了獨享定理冠名的學術榮耀,但沈澱下來的思維功底,會是AI時代最好的個人底氣。
陶哲軒的三層金字塔
其實吧,關於AI對數學研究的衝擊,陶哲軒很早就洞察到了。
今天,他提出了一個「金字塔」,將數學問題的解決拆分為三個組成部分:
證明生成:建構出一個完整的證明。
證明驗證:確認證明是正確的。
證明消化:真正理解這個證明在說什麼,為什麼是對的,它揭示了什麼更深的結構。
前兩個,AI正在以驚人的速度實現自動化。
但第三個——消化——還遠遠沒有被解決。
這將引發一種前所未有的「認知超載」:
證明像不要錢似地被大量產出,甚至機器都能幫你驗算完了,但沒有人真正消化它們。
陶哲軒稱其為「證明消化不良」。
對此,或許會有人提議:
那就把第三步也自動化掉嘛,訓練AI用更好的數學寫作風格來呈現證明,讓它更容易被理解。
但陶哲軒的意思是,盲目優化「可讀性」指標,可能反而讓最終產物變得更差。
他用烹飪來做類比。
我們咀嚼食物,是為了幫助消化。烹飪技術可以讓食物更軟嫩,減少咀嚼的需要。
但如果決定徹底優化消化過程、把「需要咀嚼的量」降到最低,那邏輯上的最佳解就是——把所有食物丟進果汁機,透過管子直接灌進胃裡。
這在技術上確實解決了消化問題。但沒人想這樣吃飯,不管身體或精神都會出大問題的。
吃飯的價值從來不只是攝取營養。
感官體驗,還有社交場景,還有咀嚼本身帶來的滿足感……這些附加產物,才是人類最享受的東西。
優化掉所有摩擦,你得到的不是更好的飲食,而是一根飼料管。
數學也一樣。
分清楚什麼是數學學習中,「必須」經歷的摩擦。
有些證明中的「難度」,是人為製造的。
用詞不清晰、結構混亂……這些「人工難度」,用AI讀論文確實可以消除,就像把一塊肉醃過再上桌。
但還有一種,屬於「自然難度」。
它本來就應該是難的。
讀者需要「咀嚼」它,才能獲得真正的理解,並在這一過程中迸發新的靈感。
這就像陶哲軒之前在Podcast說的,他會故意在行事曆中空出一段時間,用來「不期而遇」。
看到這裡,有人可能還會說:讓AI解決一切,繼續優化評判標準,把「自然難度」也納入考量不就好了?
但事實上,不是所有問題都能被當成一個「優化問題」——只要無限迭代,到最後得到的結果,就一定是我們想要的。
人類對待食物的思路就不是這樣。
米其林大廚手工製作的料理,至今仍比機器加工的食品更受珍視,即使後者安全、美觀、易消化、方便、口味也不差。
不是說加工食品沒有用處。
只是,沒有人會認真地提議,用它來完全取代人類的烹飪藝術。
這叫「鍋氣與人情味」,是必須由人類去賦予的。
不要掉進果汁機
兩位菲爾茲獎得主,面對同一場風暴,看到的是不同的東西。
高爾斯看到的是危機。
那些原本為年輕數學家準備的「入門賽道」,正在被AI碾平。培育體系的地基在動搖,學術發表的規則在失效。
新人的路在何方?
對此,陶哲軒其實也沒有答案,他給出的,是邊界。
AI能生成證明、能驗證證明,但「消化」,至少目前,還是獨屬於人類的。
不是AI做不到,而是……
我們不能交出去。
這不單純是知識型的任務,「消化」這件事,觸及到智慧本身。
這真是個屬於「意義」的時代。
AI正在一步步把我們逼到牆角,一次又一次無止境地追問:
到底什麼才是獨屬於人類的、最珍貴的東西?
在數學領域,這個東西可能是陶哲軒所說的那種有益的「自然難度」。
那些必須靠自己咀嚼、煎熬地探索,才能真正變成你一部分的知識。
或許,其他領域同樣如此。
果汁機可以把一切打碎。
但有些東西,永遠需要人親自去做。
不要淪為駭客任務裡,被插著管子的生物電池。
參考連結:https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/https://x.com/wtgowers/status/2052830948685676605https://mathstodon.xyz/@tao/116551624228986501