Google 發表「AI 協同數學家」:刷新最難數學基準SOTA,與牛津教授破解數十年無解難題

圖片

群論領域數十年無解的第21.10號問題,最近在 Google DeepMind 全新 Agent 系統「AI 協同數學家」的協助下,由牛津大學數學家 Marc Lackenby 破解了。

以往的數學研究,研究團隊需要反覆確認問題邊界、判斷哪些文獻真正相關,並進行小規模計算實驗來建立直覺。AI 在數學上的提升,也更常體現在局部能力上:比方說更強的推理、更成熟的形式化證明、更方便的工具調用。但這些能力,還沒有被整合成一個可以持續推進的研究流程。

AI 協同數學家試圖解決的,正是這個問題:它不再只是回答某一步推理、補全一段證明,而是打造一個能長期協作的多 Agent 工作台。在群論問題的解答上,它沒有直接給出答案,而是提出了一條富有啟發性的證明思路。正是在這一份存在缺口的草稿裡,牛津大學數學家 Marc Lackenby 看見了突破口,經過他與 Agent 的反覆配合,該問題最終被推進到解答。

全新 Agent 上線後,Google DeepMind 研究團隊在論文指出,AI 協同數學家刷新了最難數學基準 SOTA,在 FrontierMath Tier 4 上取得了 48% 的準確率。這說明該 Agent 的參與不僅改變了協作方式,也帶來了可量化的效能提升。

Image

論文連結:https://arxiv.org/abs/2605.06651

AI 協同數學家:長期協作的多 Agent 工作台

AI 協同數學家是一個專為數學研究設計的多 Agent 系統。

據論文描述,在這一系統中,使用者主要與最上層的專案協調 Agent 互動,由它先釐清問題邊界、確認研究目標,再把任務拆分給不同工作流。各條工作流會繼續調用文獻檢索、程式碼實驗、證明嘗試、結果審查等子 Agent,並把中間結果寫回共享檔案系統。最終交付的內容,也不是一段容易丟失脈絡的對話,而是一份持續更新的工作文稿,裡面保留了邊註、來源說明、內部連結和審查痕跡。

Image

圖|典型 AI 協同數學家工作空間中各類 Agent 組織結構的簡化示意圖。箭頭表示標準的資訊傳遞路徑,這些路徑用於從使用者收集資訊,並向各 Agent 分發來自使用者的指令

研究團隊強調,Agent 會持續記錄所有失敗的假設、走不通的路線和審查中暴露出的漏洞,並將這些內容作為正式的研究脈絡保存下來,而不是簡單丟棄。他們提出,在數學研究裡,「什麼方法不行」本身就是重要資訊,因此,失敗的探索並不是可以忽略的雜音,而是後續重設問題、調整策略和重新開闢研究路徑的重要依據。圍繞同一研究目標,這一系統可以並行推進多條工作流,並根據需要隨時增補;各條工作流會持續回傳階段性進展、產出經過審閱的報告;若某條工作流最終未能完成任務,系統會直接給出醒目警告。

Image

圖|單個工作流由一系列動作構成,這些動作由工作流協調 Agent 執行,並可能引起專案狀態和/或使用者介面的更新

同時,研究團隊也在「不確定性管理」上設置了約束:程式碼未通過測試,不能算完成;報告未通過審查,不能直接定稿;如果某條研究路徑長時間卡住,Agent 也必須把問題明確暴露給使用者,而不是繼續用形式完整的文稿掩蓋其中的邏輯缺口。

Image

圖|一旦研究問題和目標被確定,專案協調者就會安排各個工作流,以推動目標的實現

刷新最難數學 AI 基準 SOTA,參與真實數學研究

在基準測試上,AI 協同數學家在 FrontierMath Tier 4 上取得了 48% 的準確率,創下了 AI 在該基準上的全新 SOTA 分數。具體來說,在去掉 2 道公開樣例題後,它答對了 48 道非公開題中的 23 道。

FrontierMath 是 Epoch AI 開發的高難度數學基準,共收錄 350 道原創題目,涵蓋現代數學多個分支。其中最難的 Tier 4 只有 50 題。Epoch 團隊描述,這一層級裡的部分問題,AI 可能在未來數十年內仍無法解決,人類專家解出一道題通常也需要數天。

相比之下,其基礎模型 Gemini 3.1 Pro 在同一測試中的準確率為 19%。並且,研究團隊強調,這 23 道答對的題目裡,有 3 道此前從未被任何已評測系統解出。

Image

圖|Gemini 3.1 Pro、Gemini 3.1 Deep Think,以及 AI 協同數學家(同樣基於 Gemini 3.1)在一項內部研究級數學基準測試上的準確率得分

真實使用案例同樣值得留意。研究團隊指出,這些結果均由數學家直接完成,中間沒有 Google DeepMind 研究人員介入。

其中,牛津大學數學家 Marc Lackenby 藉助該系統推進了 Kourovka Notebook 第 21.10 號問題;數學家 Semon Rezchikov 在哈密頓系統相關子問題上得到了一條包含關鍵引理的證明路線;數學家 Gergely Bérczi 則獲得了關於 Stirling 係數問題的證明嘗試與計算證據。不過,在 Bérczi 的研究中,相關證明在論文中仍被標註為「處於詳細人工審查中」,Rezchikov 的研究比較也主要是個案經驗,而非對照實驗。這說明該模型在迴路中的協作形態已經具有現實價值,但不能直接推斷出 Agent 已經能夠穩定、獨立地完成開放式數學研究。

不足與未來方向

研究團隊也承認了該 Agent 系統的不足:

例如,多輪評審並不必然帶來更可靠的結果。有時候原本存在缺陷的論證,會在反覆修改後變得越來越像「已經通過審查」,但其中的真實漏洞並沒有消失;其次,不同 Agent 之間可能遲遲無法形成共識,導致 Agent 陷入無休止的修改與駁回循環,推理品質反而不斷下降。

同時,該 Agent 系統目前也還無法脫離人類持續介入,穩定完成長程研究任務。長時間自治也意味著使用者必須讓出一部分控制權,而當前模型在遭遇意外困難時,何時止步、何時求助的判斷,仍然明顯落後於人類研究者。此外,預期排版精良的 LaTeX 文稿,很容易讓人產生「內容嚴謹」的錯覺。

此外,研究團隊對未來方向的表述也相對克制。他們認為,下一步更重要的,不是單純追求更強的結果生成能力,而是發展新的評估框架,用來衡量協作效果、有狀態探索能力,以及對不確定性的嚴格管理。與此同時,如何控制自動化輸出帶來的語義雜音、減輕同儕審查負擔,並保有人類對論文價值的整體判斷,也是未來研究者必須面對的問題。

與其說 AI 協同數學家正在成為一名能夠獨立攻克難題的「數學家」,不如說它正在顯露出另一種可能:在漫長、曲折而充滿試誤的研究過程中,AI 作為人類可以持續協作的對象存在。

圖片
相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.