Google 發表「AI 協同數學家」：刷新最難數學基準SOTA，與牛津教授破解數十年無解難題

群論領域數十年無解的第21.10號問題，最近在 Google DeepMind 全新 Agent 系統「AI 協同數學家」的協助下，由牛津大學數學家 Marc Lackenby 破解了。

以往的數學研究，研究團隊需要反覆確認問題邊界、判斷哪些文獻真正相關，並進行小規模計算實驗來建立直覺。AI 在數學上的提升，也更常體現在局部能力上：比方說更強的推理、更成熟的形式化證明、更方便的工具調用。但這些能力，還沒有被整合成一個可以持續推進的研究流程。

AI 協同數學家試圖解決的，正是這個問題：它不再只是回答某一步推理、補全一段證明，而是打造一個能長期協作的多 Agent 工作台。在群論問題的解答上，它沒有直接給出答案，而是提出了一條富有啟發性的證明思路。正是在這一份存在缺口的草稿裡，牛津大學數學家 Marc Lackenby 看見了突破口，經過他與 Agent 的反覆配合，該問題最終被推進到解答。

全新 Agent 上線後，Google DeepMind 研究團隊在論文指出，AI 協同數學家刷新了最難數學基準 SOTA，在 FrontierMath Tier 4 上取得了 48% 的準確率。這說明該 Agent 的參與不僅改變了協作方式，也帶來了可量化的效能提升。

論文連結：https://arxiv.org/abs/2605.06651

AI 協同數學家：長期協作的多 Agent 工作台

AI 協同數學家是一個專為數學研究設計的多 Agent 系統。

據論文描述，在這一系統中，使用者主要與最上層的專案協調 Agent 互動，由它先釐清問題邊界、確認研究目標，再把任務拆分給不同工作流。各條工作流會繼續調用文獻檢索、程式碼實驗、證明嘗試、結果審查等子 Agent，並把中間結果寫回共享檔案系統。最終交付的內容，也不是一段容易丟失脈絡的對話，而是一份持續更新的工作文稿，裡面保留了邊註、來源說明、內部連結和審查痕跡。

圖｜典型 AI 協同數學家工作空間中各類 Agent 組織結構的簡化示意圖。箭頭表示標準的資訊傳遞路徑，這些路徑用於從使用者收集資訊，並向各 Agent 分發來自使用者的指令

研究團隊強調，Agent 會持續記錄所有失敗的假設、走不通的路線和審查中暴露出的漏洞，並將這些內容作為正式的研究脈絡保存下來，而不是簡單丟棄。他們提出，在數學研究裡，「什麼方法不行」本身就是重要資訊，因此，失敗的探索並不是可以忽略的雜音，而是後續重設問題、調整策略和重新開闢研究路徑的重要依據。圍繞同一研究目標，這一系統可以並行推進多條工作流，並根據需要隨時增補；各條工作流會持續回傳階段性進展、產出經過審閱的報告；若某條工作流最終未能完成任務，系統會直接給出醒目警告。

圖｜單個工作流由一系列動作構成，這些動作由工作流協調 Agent 執行，並可能引起專案狀態和/或使用者介面的更新

同時，研究團隊也在「不確定性管理」上設置了約束：程式碼未通過測試，不能算完成；報告未通過審查，不能直接定稿；如果某條研究路徑長時間卡住，Agent 也必須把問題明確暴露給使用者，而不是繼續用形式完整的文稿掩蓋其中的邏輯缺口。

圖｜一旦研究問題和目標被確定，專案協調者就會安排各個工作流，以推動目標的實現

刷新最難數學 AI 基準 SOTA，參與真實數學研究

在基準測試上，AI 協同數學家在 FrontierMath Tier 4 上取得了 48% 的準確率，創下了 AI 在該基準上的全新 SOTA 分數。具體來說，在去掉 2 道公開樣例題後，它答對了 48 道非公開題中的 23 道。

FrontierMath 是 Epoch AI 開發的高難度數學基準，共收錄 350 道原創題目，涵蓋現代數學多個分支。其中最難的 Tier 4 只有 50 題。Epoch 團隊描述，這一層級裡的部分問題，AI 可能在未來數十年內仍無法解決，人類專家解出一道題通常也需要數天。

相比之下，其基礎模型 Gemini 3.1 Pro 在同一測試中的準確率為 19%。並且，研究團隊強調，這 23 道答對的題目裡，有 3 道此前從未被任何已評測系統解出。

圖｜Gemini 3.1 Pro、Gemini 3.1 Deep Think，以及 AI 協同數學家（同樣基於 Gemini 3.1）在一項內部研究級數學基準測試上的準確率得分

真實使用案例同樣值得留意。研究團隊指出，這些結果均由數學家直接完成，中間沒有 Google DeepMind 研究人員介入。

其中，牛津大學數學家 Marc Lackenby 藉助該系統推進了 Kourovka Notebook 第 21.10 號問題；數學家 Semon Rezchikov 在哈密頓系統相關子問題上得到了一條包含關鍵引理的證明路線；數學家 Gergely Bérczi 則獲得了關於 Stirling 係數問題的證明嘗試與計算證據。不過，在 Bérczi 的研究中，相關證明在論文中仍被標註為「處於詳細人工審查中」，Rezchikov 的研究比較也主要是個案經驗，而非對照實驗。這說明該模型在迴路中的協作形態已經具有現實價值，但不能直接推斷出 Agent 已經能夠穩定、獨立地完成開放式數學研究。

不足與未來方向

研究團隊也承認了該 Agent 系統的不足：

例如，多輪評審並不必然帶來更可靠的結果。有時候原本存在缺陷的論證，會在反覆修改後變得越來越像「已經通過審查」，但其中的真實漏洞並沒有消失；其次，不同 Agent 之間可能遲遲無法形成共識，導致 Agent 陷入無休止的修改與駁回循環，推理品質反而不斷下降。

同時，該 Agent 系統目前也還無法脫離人類持續介入，穩定完成長程研究任務。長時間自治也意味著使用者必須讓出一部分控制權，而當前模型在遭遇意外困難時，何時止步、何時求助的判斷，仍然明顯落後於人類研究者。此外，預期排版精良的 LaTeX 文稿，很容易讓人產生「內容嚴謹」的錯覺。

此外，研究團隊對未來方向的表述也相對克制。他們認為，下一步更重要的，不是單純追求更強的結果生成能力，而是發展新的評估框架，用來衡量協作效果、有狀態探索能力，以及對不確定性的嚴格管理。與此同時，如何控制自動化輸出帶來的語義雜音、減輕同儕審查負擔，並保有人類對論文價值的整體判斷，也是未來研究者必須面對的問題。

與其說 AI 協同數學家正在成為一名能夠獨立攻克難題的「數學家」，不如說它正在顯露出另一種可能：在漫長、曲折而充滿試誤的研究過程中，AI 作為人類可以持續協作的對象存在。

Google 發表「AI 協同數學家」：刷新最難數學基準SOTA，與牛津教授破解數十年無解難題

AI 協同數學家：長期協作的多 Agent 工作台

刷新最難數學 AI 基準 SOTA，參與真實數學研究

不足與未來方向

相關文章推薦

分享網址