Google AI攻克六大世界級難題,震撼程度超越IMO金牌!陶哲軒指明新玩法

圖片

新智元報導

編輯:定慧 好困

【新智元導讀】Google DeepMind 最新 AI 智慧體 Aletheia 在 FirstProof 挑戰賽中,獨立攻克了 6 道世界級數學難題,實現了從競賽水準到博士科研層級的質變。人類數學研究的「手工時代」或許正步入倒數計時。

剛剛,人類數學界最後的防線,宣告全面崩塌!

連圍觀群眾都驚掉下巴:AI 不只會做題,現在居然已經能獨立搞定博士級別的純粹數學研究了。

就在這兩天,谷歌 DeepMind 的最新數學研究智慧體Aletheia,在數學界一場名為「FirstProof」的巔峰挑戰賽中,一口氣幹掉了10 道公認的世界級未解數學難題中的 6 道

DeepMind 的高管 Thang Luong 在 X 上難掩激動地發文:

「對我而言,這甚至比去年歷史性拿下 IMO 金牌的成就意義還要重大!」

圖片

這可不是什麼普通的數學競賽。要知道,這些題目連全球最頂尖的數學家都感到極度棘手。

圖片

結果,Aletheia 不僅自主算出了答案,甚至連提出其中第 7 題猜想的數學家 Jim Fowler 本人,都親自出面蓋章確認:

「AI 的解題過程,是完全正確的。」

圖片

就連當今世界最傑出的天才數學家陶哲軒,都在最新的訪談中表示:AI,已經成為了我的「初級合著者」。

圖片

圖片

Aletheia 的「神之一手」:暴力推導

Aletheia 到底有多厲害呢?

來看看谷歌 DeepMind 首席科學家兼研究主任,超級推理團隊負責人 Thang Luong 怎麼說:

「超級激動!我們的數學科研AI智慧體 #Aletheia,剛剛全自主解出了 10 道出了名變態難的 FirstProof 挑戰題裡的 6 道,直接拿下了首屆全場最佳!」

大家品品這句話的分量。

Luong 直言不諱:

「在我看來,這甚至比咱們去年達到 IMO(國際奧數)金牌水準的歷史性時刻,含金量還要高得多!」

因為這些題,是連當今世界上最頂尖的幾位數學大佬都感到極度頭疼的「超級硬骨頭」。

這次,DeepMind 跑了兩個基於 Gemini 3 DeepThink 打造的 Aletheia 版本(區別僅在於底層模型不同)。

經過多數專家的交叉「會診」,它們聯手幹掉了 10 道題裡的 6 道(分別是第 2、5、7、8、9、10 題)。

圖片

要知道,這套題的閱卷評估環節簡直是地獄難度。

因為這世界上能看懂其中這幾道題的專家,都已經是鳳毛麟角。

但也正因如此,DeepMind 的研究過程嚴謹到了近乎偏執的地步:

整個解答過程純靠機器自己跑,全程「零人工干預」,而且完完全全是在 FirstProof 規定的死線內提交的。

這是一個里程碑式的時刻。

不再是人類一步步餵算式,而是 AI 智慧體已經學會了趴在一個極度複雜的科研難題上「死磕」很久,在幾千條死胡同裡撞南牆,最後跑回來向人類淡淡匯報一句:「我搞定了(或者搞砸了)。」

DeepMind 甚至把 Aletheia 在這個過程中燒掉的算力(推理成本)做了完整的可視化——

圖片

其中最炸裂的,莫過於第 7 題(P7)的驚天逆轉

這是一道好幾年沒人能解開的非典型難題。

據該領域專家 Tony Feng 透露,在這次比賽裡,除了 Aletheia,根本沒 AI 能接近正確答案。

圖片

剛開始跑的時候,連 DeepMind 團隊自己都覺得 Aletheia 這次肯定沒戲了,結果居然跑出了正確答案!

為了攻克 P7,Aletheia 投入了海量算力——是當初解開 Erdős-1051 問題時的整整16 倍

數學界權威 Sang Hyun Kim 在看完 AI 的解題步驟後,給出了極高評價:

「這是我有史以來第一次,看到 AI 完美無瑕地串聯運用了好幾個極其深奧的數學定理。這絕對是一個獨一無二的稀有案例!

關於 DeepMind 對 FirstProof 的解讀和實驗細節全放這了:

圖片

論文地址:https://arxiv.org/abs/2602.21201

圖片

不胡說八道,才是 AI 最硬核的底氣

如果深挖 DeepMind 這篇論文,你會發現 Aletheia 之所以這麼穩,根本原因在於它掌握了一項關鍵技能:「自我過濾」

傳統的 AI 大模型有個臭毛病,就是不懂裝懂(幻覺)。

不管你問啥,它都會一本正經地給你編個答案。

但在科研層級的高端局,如果你給數學家扔一堆看起來極其合理但經不起推敲的廢料,那還不如不給。

DeepMind 是怎麼解決這個問題的呢?

他們給 Aletheia 體內設計了兩個「次級人格」:

一個是「生成器」,專門負責大開腦洞,瘋狂猜想解題路徑;另一個是冷血無情的「驗證器」,專門負責給「生成器」挑刺。

圖片

在解題的黑箱裡,這兩個子系統會瘋狂互搏。

當遇到那 4 道解不出來的問題時,Aletheia 沒有選擇強行胡編亂造蒙混過關,而是直接給人類發出:「No solution found(未找到解法)」,或者到了時限直接閉嘴。

圖片

不胡編不胡編亂造,絕不在沒有把握的地方瞎耗人類專家的精力——這正是 Aletheia 最讓頂尖學者放心的地方。

正如論文中所寫:「為了提升準確率,我們寧願犧牲它解答某些問題的能力。」

而在解題成本上,除了 P7 那道耗費 16 倍算力的「神題」,其他幾道題解決下來,耗費的「腦力」也都遠遠超出了去年解決 Erdős-1051 難題的極值。

想看完整的互動日誌和解題過程(對的錯的,原汁原味全公開),直接戳這裡:

圖片

GitHub 地址:https://github.com/google-deepmind/superhuman/tree/main/aletheia

圖片

Aletheia 到底手撕了哪些「變態難題」?

先來看看特地提到的 P7。

圖片

問題背景:代數拓撲/微分幾何。判斷包含二階扭轉元素的半單李群均勻格,能否作為某個萬有覆蓋在有理同調下無圈的緊緻無邊界流形的基本群。

答案:不可能。

AI 神仙解法:

證明思路一:純拓撲方法(Lefschetz 數矛盾)

利用萬有覆蓋 Q-無圈的條件,算出 2 階元素 γ 的緊支持 Lefschetz 數必須非零;但 γ 是自由作用的(沒有不動點),透過歐拉示性數的乘性又推出 Lefschetz 數必須為零。0 = ±1,矛盾。

證明思路二:幾何方法(對稱空間的剛性)

利用格的幾何結構,構造萬有覆蓋到對稱空間的等變映射,證明 γ 在兩邊的 Lefschetz 數必須相等。但在萬有覆蓋一側為零(自由作用),在對稱空間一側非零(Cartan 不動點定理保證有不動點)。再次矛盾。

好在哪?

證明一好在「少」。題目給了一堆條件,但全沒用。只靠最基礎的拓撲工具就解決了問題,而且實際證明了一個更強的結論:任何含扭轉的離散群都不行。鏈條極短:算 Lefschetz 數,一邊非零一邊為零,矛盾,結束。

證明二好在「深」。它把題目給的幾何條件全部用上了,構造了萬有覆蓋到對稱空間的映射,最終在對稱空間上用 Cartan 不動點定理找到矛盾。這條路更長,但回答了更本質的問題。

<

圖片

問題背景:數論/表示論。在非阿基米德局部域上的矩陣群表示中,證明存在一個萬能的 Whittaker 函數,使得局部 Rankin–Selberg 積分對所有配對表示都非零。

答案:可以。存在這樣的「萬能」W。

AI 神仙解法:

先選一個特殊的 Whittaker 函數 W,使積分域壓縮到緊集上,複參數 s 完全消失,問題簡化為證明一個有限泛函非零。然後用反證法:假設對所有 V 都為零,透過有限 Fourier 分析推出測試函數具有「平移不變性」,這會迫使表示 π 在一個比其導子更粗的子群下有不變向量,與導子的定義矛盾。

好在哪?

整個證明最關鍵的就是第一步選取 Whittaker 函數 W。這一個選擇同時做到了三件事:1)把積分域壓縮到緊集上,2)消去了複參數 s,3)把無窮維的分析問題變成有限維的代數問題。而且這個 W 不依賴於配對表示 π——同一個選擇對所有 π 都管用,這在表示論裡非常稀有。

反證法部分的「level lowering」也很精彩:假設泛函恆為零,透過有限 Fourier 分析逐步推出測試函數在模 p^{c-1} 下不變,但 π 的導子恰好是 p^c,這個層級上不可能有不變向量。矛盾恰好卡在導子的定義上,一步不多一步不少。

對於其他題目,感興趣的讀者可自行查閱論文和 GitHub 專案。

圖片

人類出題的速度,已經快跟不上了

為什麼偏偏是數學,成了檢驗 AI 實力的終極擂台?

道理很簡單——數學的答案非黑即白,對就是對、錯就是錯,沒有任何讓人類「手下留情」打人情分的空間。

但現在的問題是:出卷的速度,已經被答卷的速度遠遠拋在腦後了。

圖片

2024 年 11 月,Epoch AI 上線了 FrontierMath 評測基準,專門用來摸底最前沿 AI 的數學推理能力。

剛上線時最強 AI 連 2% 的題都做不出來,結果到了今天,GPT-5.2 和 Claude Opus 4.6 已經能搞定基礎題庫 40% 以上的題目,連 50 道終極難度的第 4 級挑戰題,正確率也突破了 30%。

圖片

圖片

不過,FrontierMath 再難,本質上還是「人類已有標準答案,看 AI 能不能也做出來」,說白了還是考試。

但 FirstProof 裡的 10 道題,是 11 位頂尖數學家從自己真實科研中掏出來的、從未公開發表過的難題。

圖片

專案首頁:https://1stproof.org/

而且這場挑戰賽的結局充滿戲劇性。

• 2 月 6 日題目放出後,專業學者、民間高手、各大 AI 實驗室紛紛下場。

• 到 2 月 14 日揭曉答案時,沒有人或團隊全部拿下。

• 隨後,出題者自己拿 Gemini 3.0 Deep Think 和 ChatGPT 5.2 Pro 跑了一輪,也只解出了 2 道。

• 最終,OpenAI 最強內部系統在有限人類監督下解出 5 道。

對比之下,足以見得這次 Aletheia「零人工」干預做出 6 道題的含金量有多高。

數學圈對此五味雜陳:一部分人直呼逆天,另一部分人覺得 10 道還剩 4 道沒解,離替代數學家還遠。

但一個不可逆轉的趨勢已經擺在所有人面前——

我們需要更難的題庫來測 AI,而且動作必須快,因為現有的一切正在以肉眼可見的速度過期。

Epoch AI 顯然也意識到了這一點。

就在 FirstProof 開賽同期,他們放出了自己的大招——FrontierMath: Open Problems。

圖片

圖片

圖片

圖片

圖片

左右滑動查看

這個全新題庫收錄了 16 道專業數學家死磕過但至今全軍覆沒的真正未解之謎。

更>更絕的是,雖然沒有標準答案,Epoch AI 卻給每道題寫了自動評分程式來判斷 AI 的解是否成立。

上線至今,沒有任何 AI 解出哪怕一道——這個「零分」現狀,反而恰恰證明了題庫的價值所在。

圖片

FirstProof 團隊也沒打算收手,已經官宣 3 月 14 日推出難度更變態的第二輪挑戰。

圖片

圖片

陶哲軒:AI 是我的「初級合著者」

那麼,站在數學界絕對頂峰的人,到底怎麼看這場風暴?

在最新訪談中,陶哲軒給出了一個極其精準的定位:AI 現在是他的「初級合著者」。

他 2023 年曾預測到 2026 年 AI 能達到論文合著者水準,當時褒貶不一,現在看進度完全吻合甚至略有超前。

圖片

而比這個頭銜更重要的,是陶哲軒描述的一種全新的數學研究範式。

他說,傳統數學研究像是「個案研究」,一篇論文揪著一兩個問題往死裡磕,這是數學家幾百年来的工作方式。但 AI 正在讓數學家第一次有能力做「大樣本普查」。

與此同時,數學研究中有大量極其繁瑣的計算是人類極其討厭做的,所以數學家們會絞盡腦汁想聰明辦法繞過去。但 AI 不嫌煩,它樂意不知疲倦地把這些枯燥的推導全部跑完。

當 AI 被整合進人類的工作流,這些曾經讓人望而卻步的障礙就直接被跨過去了。

而在另一個維度上,AI 還展現出一種獨特的本事——它能系統性地掃描人類根本沒精力去碰的問題長尾。

以埃爾德什留下的 1000 多個數學問題為例,AI 能把它們從頭到尾過一遍,從中挑出可突破的題目逐個擊破。

人類不可能這麼干,但 AI 可以,而且已經在這麼干了。

陶哲軒甚至承認自己從 AI 的解題過程裡學到了東西:

也許它用到了某篇 1960 年論文裡我沒見過的小技巧,它能做到那些人類專家看了一眼就懶得去試的事情。

圖片

圖片

下一個倒數計時已經開始

回看這整場風暴,一條清晰的主線已經浮出水面:

從 FrontierMath 被快速刷穿,到 FirstProof 上 Aletheia 零人工干預拿下 6 題,再到陶哲軒親口承認 AI 已是自己的「初級合著者」。

所有信號都在指向同一個事實:

AI 正在以一種不可逆轉的姿態,嵌入人類數學研究的核心流程。

而最值得玩味的,是 Epoch AI 那個至今「零分」的 Open Problems 題庫。

它的存在本身就是一個隱喻:

人類現在能拿來考 AI 的最後武器,是連自己都不知道答案的題目。

這道防線還能守多久?沒人敢打包票。

但有一點幾乎可以確定——

當 3 月 14 日 FirstProof 第二輪挑戰賽開啟的那一刻,今天這篇文章裡的所有數字,可能就已經過時了。

參考資料:

https://x.com/rohanpaul_ai/status/2026559039241597070?s=20

https://www.theatlantic.com/technology/2026/02/ai-math-terrance-tao/686107/


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.