ChatGPT數學進階之路！OpenAI研究員自爆：從數不清數到給出埃爾德什問題全新解法；數學是衡量模型進步的重要基準；AI自動化研究員

編輯 | 玉澄

ChatGPT 的數學程度，是如何從「算不清數」進步到能協助菲爾茲獎得主呢？

今天，OpenAI 官方Podcast推出一集節目，讓內部研究員 Sebastian Bubeck 和 Ernest Ryu 來解答這個疑問，畢竟大家都非常好奇。

Ernest 近期才加入 OpenAI 擔任研究員，他之前是加州大學洛杉磯分校（UCLA）數學系的教授，研究最佳化與機器學習理論。他是最早嘗試用 ChatGPT 解決數學開放問題的人之一。

2025年，他借助 ChatGPT 解決了困擾數學界 42 年的 Nesterov 加速梯度法問題。在對談中他提到，之前他自己花了超過 40 個小時而且失敗了，而和 GPT 合作只花了 12 小時就解決了這個難題。

另一位來賓 Sebastian 曾在普林斯頓大學當過教授、待過微軟，已經從事數學研究近 20 年。加入 OpenAI 後，他一直致力於理解 AI 如何幫助做數學研究，並評估 AI 在解決困難數學問題方面所取得的進展。

在這場Podcast的開頭，兩位來賓都一致認同，「2025 年夏天 ChatGPT 在國際奧數競賽中獲得金牌」的新聞讓數學界大為震驚，畢竟 2023 年 ChatGPT 才剛問世。而且在 2025 年年初，Ernest 讓 ChatGPT 計算三個人露營時的平攤費用，以及確認不同時區的人都要參加的線上會議時間，它都算不好。

ChatGPT 的數學進展為何這麼快呢？Sebastian 的回應是：他們在 OpenAI 做了大量的研究和創新，不僅僅只是縮放（Scaling）模型，是很多因素共同作用的結果。聽起來很籠統，並沒有講乾貨。

不過Sebastian 特別強調，「數學在過去四年中是觀察模型進步的完美基準」，而現在「會做數學」仍是推理模型追求的目標，原因是：解決數學問題需要長時間的思考，而且過程中要保持邏輯一致。

還有一個讓數學界廣泛關注的進展是，ChatGPT 能解決一位數學家保羅·埃爾德什（Paul Erdős）留下的開放問題。透過掃描數千篇不相關的論文，在兩個完全不同的數學分支間建立連結，模型做到了解答 10 個埃爾德什問題。

一開始很多數學家還不相信這件事是真的，到現在模型還做到了給出文獻中不存在的超過 10 個的全新解法，Sebastian 說這些解法「完全可以在組合數學的一流期刊上發表」。

在對談中，他們還談論了「自動化研究員」的願景，也就是「模型或模型集群可以自主工作很長一段時間」。Sebastian 提到，AI 的思考時間過去已經經歷了從「秒」到「分鐘」、到「小時」、到「天」的跨越，現在大約處於「天」到「一週」的階段，而未來希望走向「週」甚至是「月」。

當模型成為「自動化研究員」後，人類的角色是什麼呢？

Sebastian 給出的答案是：我們解題是因為我們在嘗試理解更深層次的事物，而這是為了更好地控制我們的環境。對於「哪些問題是重要的」，我們必須對AI保持控制並引導，比如「AI 並不在乎治癒疾病，它們不會像我們一樣遭受疾病之苦，但我們在乎」，而這會讓我們迎來一個非常光明的未來。

說到未來，兩位研究員認為 AI 時代的數學將變得解法更多、樂趣更多，理論互聯性更強，結論被驗證的速度更快且更可信。同時，深度理解比以往任何時候都更有價值。缺乏專業背景的人使用 AI 往往會產出看似合理實則荒謬的「幻覺證明」。

與此同時，他們也期待 AI 的數學能力會擴展到所有科學領域，能夠讓科學家更有效率、更強大，做出更好的成就。

以下為這場Podcast的對話全文，enjoy：

LLM在數學領域取得的進展讓職業數學家們都大為震驚

Andrew Mayne：我想很多人都有這種認知，覺得這些模型不擅長數學，畢竟它們被稱為「語言模型」。這種情況是怎麼改變的？發生了什麼事？

Sebastian Bubeck：是的，我認為過去幾年的進步簡直是奇蹟。重要的是要記得，兩年前我們甚至還沒有推理模型，更不用說能證明困難數學定理的模型了。兩年後的今天，這些模型已經能夠在日常工作中協助菲爾茲獎得主了。所以這種跨越簡直令人震驚。如果我能再補充一點，有一點很重要：包括我們在內的所有人都對這種進步感到驚訝。

跟你說個故事，一年半以前，我和其他數學家同事參加了一個會議的工作坊，我參加了一場辯論，主題是大語言模型（LLM）的縮放（Scaling）是否能幫助我們解決重大的開放性問題。那是約一年半前的辯論，當時全場意見分歧很大。事實上，他們在開始時做了一個民意調查，我想大約 80% 的人說「不，這不可能發生」。隨後辯論展開。到辯論結束時，比例變成了大約 50 對 50。在那一個小時裡取得了不錯的進展。

事後看來，這顯然是大錯特錯的。僅僅 8 個月後，模型就開始能夠進行研究級別的數學工作了。

Andrew Mayne：對你來說，意識到 AI 和數學之間存在絕佳交匯點的突破性時刻是什麼？

Ernest Ryu：2025 年夏天，重大新聞是 ChatGPT 在國際數學奧林匹亞（IMO）中達到了人類頂尖水準，獲得了金牌表現。那是一個驚人的消息。這證明了，至少對於競賽級別的數學，模型的邏輯能力已經非常強了，可以與人類最頂尖的高中選手相提並論。但是，競賽題目是「套路題」。它們的解法相對較短，因為要求在幾個小時內解出。而且它們不是原創的，因為既然題目出得出來，就一定有解。所以那還不算研究級別的數學。於是我產生了好奇，很多人也很好奇：ChatGPT 能做研究級別的數學嗎？網路上有很多討論。然後我想，我應該在自己的問題上試一試。與其聽別人怎麼說，不如親自嘗試並做出判斷，因為我自己就是數學家。

Ernest Ryu：於是我選了一個最佳化理論中的經典開放問題，這是我從事的應用數學分支。具體問題是關於一個著名的演算法，叫做 Nesterov 加速梯度法。問題是：它是否始終具有這種收斂行為，還是在某些極端情況下，可能存在某種發散行為？這個問題是真正的開放性問題，因為人們知道在多數情況下，該演算法表現良好且收斂，但人們確實不知道是否存在反例？在最壞的情況下，它會發散嗎？答案證明是肯定的。

我記得很清楚我是如何發現它的。我給兒子訂的睡覺時間是晚上 8 點，然後我儘量不在午夜之後熬夜。所以，如果我想專注於某件事，我通常有四個小時的晚間個人時間。於是我決定，好，我要花幾天時間研究這個問題。在三天的跨度裡，總共 12 個小時，我針對這個問題與 ChatGPT 進行了互動。這並不是我輸入提示詞就能得到答案那麼簡單。我扮演了驗證者的角色。每當模型犯錯時，我都會糾正它。我還嘗試將對話引導至我覺得新穎的方法領域。一段時間後，證明出來了，我檢查了一遍。我還讓 ChatGPT 進行了覆核，結果是正確的。就這樣，這個困擾了 42 年的開放性問題得到了解決。得到這個解法後，我在想，對我來說最有趣的發布方式是什麼？因為我可以寫一篇論文，但那樣比較無趣。所以我決定，去 Twitter（現 X）上聊聊這件事。我玩得很開心。我想這是 AI 解決真實數學開放問題的最早案例之一，大家非常關注，這真的很有趣。

2025 年初及之前，ChatGPT 在普通數學問題上仍表現不佳

Andrew Mayne：你提到這一點很有趣，我們有時看到有人說「嘿，我發現了一些很酷或很新穎的東西」，有時會被拆穿，有時則經得起推敲。社群媒體可能有點可怕，但看起來我們確實需要這種回饋循環。我想對我們很多人來說，挑戰在於聽到像「國際奧數」這樣的詞時，很難理解它在問題難度等級上意味著什麼。我能理解加減乘除。你能給我舉個例子嗎？模型是如何從最初只能勉強應付，到能做數學、能使用工具，再到模型能夠隱式理解數學的？

Ernest Ryu：2023 年初 ChatGPT 剛問世時，我開始測試它。我很好奇模型在普通數學問題上的表現。這包括高中程度的題目，也包括日常生活中帶有數學性質的問題。

例如，想像一個場景，我們三個人一起去露營，我付了這個錢，Andrew 你付了那個錢。最後我們想結清帳目，平攤費用。ChatGPT 能幫我們計算嗎？如果你買了 17 樣東西，這其實中等複雜。在 23 年、24 年，甚至 25 年初，我記得模型都做不好。

另一個例子是，假設我在韓國，Seb 在巴黎，Andrew 你在加州，我們想安排一個 Zoom 會議。什麼時候比較合適？同樣，在 25 年初，模型也做不好。

但突然之間，情況發生了變化。我當時不在 OpenAI，所以並不完全清楚你們具體做了什麼，但模型突然開始解決 IMO 題目了。更進一步，它開始解決研究級問題。我現在對此的評估是：除非你是一名試圖發現新數學理論的職業數學家，如果你是一名物理學家或化學家，需要使用複雜的數學（如微分方程、微分幾何等），但你不是在發明新數學，那麼 ChatGPT 可以處理你所需的所有數學。

Ernest Ryu：基本上，STEM 領域的任何高階數學使用者現在都可以使用 ChatGPT 來處理他們的數學問題。你還是需要保持一定程度的謹慎，檢查結果是否正確，執行模擬進行覆核。模型是會犯錯的。但現在，對於 99% 的人想要解決的任何數學問題，模型都能勝任。

Andrew Mayne：當我參與 GPT-4 的發布工作時，我曾把排程作為例子。我可以把三個人的行程放進去讓它找出時段。但再往後推就很難了。為什麼會發生這種變化？Ernest 剛才談到突然發現它變強了。我們知道其中一點是工具的使用，比如允許模型使用計算機。但模型本身也發生了其他變化。

Sebastian Bubeck：回到我剛才告訴你的那場辯論，當時的爭論點在於僅僅靠縮放（Scaling）LLM 本身，是否能讓你在數學研究上取得突破。這是一個錯誤的框架。我們在 OpenAI 做了大量的研究和創新，不僅僅是縮放模型。當你問去年年中發生了什麼，讓模型突然能解決數學問題時，其實是很多因素共同作用的結果。我們做了很多研究，所有這些研究必須同時推進。所以我無法將其歸功於單一因素。

Andrew Mayne：但它確實在不借助工具的情況下做到了。

Sebastian Bubeck：是的。我認為有必要再次強調 Ernest 所說的關於進度以及模型以前無法處理的排程問題。我說過兩年前我們沒有推理模型，想想四年前。四年前是 ChatGPT 誕生之前。我記得當時 Google 推出了一款名為 Minerva 的數學模型。我當時驚訝得從椅子上摔了下來。我被什麼驚到了？只要給模型平面上點的坐標，它就能給出一條穿過這些點的直線。現在說起這個，大家可能很難理解了：「你在說什麼？模型當然能做到。」所以我認為我們有些忘記了事情發生得有多快。而現在，正如 Ernest 所說，除非你想發明新的數學，否則模型基本上已經達到了所需的水平。我甚至會說，我們已經看到了模型甚至可以發明新數學的微光。

LLM 會數學是衡量模型進步的重要基準

Andrew Mayne：你能分解一下嗎？除了對開發新數學領域或證明新定理感興趣的人之外，這會對其他事物產生什麼影響？這對科學的影響是什麼？對你們正在研究的其他工作有什麼影響？為什麼這非常重要，而不只是「噢，真酷，它會做題」？

Sebastian Bubeck：我認為，「它會做數學」這部分在開發模型過程中作為衡量進度的基準非常重要。數學的好處在於問題非常清晰且沒有歧義。大家都認同問題的要求。這是第一點。第二點，你可以驗證答案。一旦模型給出答案，所有人都會達成共識：它是對還是錯。雖然研究級別的評估沒那麼簡單，但在研究級別以下，評估非常容易。所以，數學在過去四年中是觀察模型進步的完美基準。現在，我們可以說在這個方面已經趨於飽和。你可以問，好，現在模型會數學了，下一步呢？

對於下一步，我會說讓模型擅長數學對很多其他事情都有好處。讓我解釋一下原因。數學的一個關鍵特徵是，要解決一個問題，你必須思考很長時間，可能是幾天、幾週，甚至幾年。這種長時間的思考，不僅要求時間長，還要求思考過程始終保持邏輯一致。如果在推理鏈條的某個地方出現了一個錯誤，整個論證就毀了。即使在那之後的一切都是正確的也沒用。只要有一個失效點，整個論證就崩潰了。這種特性使得它成為推理模型所追求的目標，即如果它們犯了錯，它們能夠自我糾正。所以我們希望，它們透過數學獲得的這種能力可以推廣到其他領域。順便說一句，這和人類的情況完全一樣。我們為什麼要訓練人類學數學？這很有趣，我熱愛數學，我們也以此為業。但訓練人類學數學的原因完全相同：它賦予你這種非常嚴密的邏輯思維能力。

Andrew Mayne：我們需要思考討論這些發現的新方式嗎？

Ernest Ryu：是的。我個人認為我的部分職責是嘗試向研究界科普最近的進展，因為我擁有雙重背景：既是前數學家，現在又在 AI 的前沿工作。確實，Twitter 和社群媒體是解釋進展的好地方，尤其因為這種進步速度太快了。

ChatGPT 解決數學界埃爾德什（Erdős）問題

Andrew Mayne：例如，我們可以聊聊埃爾德什（Erdős）問題，以及圍繞它發生的一些爭議。首先是 Ernest 舉的例子，然後還有其他幾個問題被解決了。你能順便介紹一下保羅·埃爾德什（Paul Erdős）是誰嗎？我想大家會想知道他為何如此特別，以及為什麼他的問題很有趣。

Sebastian Bubeck：當然。保羅·埃爾德什是上個世紀最高產的數學家之一。我想他寫了 1500 篇研究論文。他是一個非常特立獨行的人物。他沒有房子或公寓。他只是從一所大學旅行到另一所大學，尋找新的合作者。每到一個地方，他基本上就是提問。他在提問方面非常有天賦。並不是他提出的所有問題都有趣，但這極具啟發性。研究界和他一起寫了很多論文。甚至有一個「埃爾德什數」的概念，即在合作者鏈條中，你離埃爾德什有多遠。我的埃爾德什數是 2。我和一個曾與埃爾德什合著過的人合著過論文。

Andrew Mayne：哇，那很厲害。

Ernest Ryu：我的數是 3。

Sebastian Bubeck：有個笑話是，你可能只是和他坐了一趟火車，到下車時，你可能已經和他合寫了一篇論文並署了名。

Ernest Ryu：沒錯。我認為「2 對 3」基本上反映了我們各自的年齡差異，這才是真相。

Sebastian Bubeck：總之，埃爾德什留下了所有這些問題。Thomas Bloom 建立了一個很棒的網站，追蹤所有仍未解決的埃爾德什問題。那個網站上大約有一千個問題。Thomas 本人就是組合數學專家。他可以標明：這個是開放的，這個已解決。當然，他不一定知道所有問題的答案。如果一個問題被標記為「開放」，並不一定意味著真的沒人會解，但也可能是一個互動的平台，人們可以在上面評論和解釋解法。當我們開始讓 GPT 解決數學研究問題時，這看起來就像是一個嘗試模型的寶庫。我們試了幾個。令我們大為驚訝的是，模型對一些標記為「開放」的問題給出了答案。我們對此感到非常興奮。

我在去年 10 月左右發過一則推文，那是一個「深度文獻搜尋」的結果。讓我解釋一下這意味著什麼。這意味著 GPT 做了極其廣泛的文獻檢索，掃描了數千篇論文。它在某個不相關的領域找到了該問題的答案。理解這一點很重要：並不是說在那個無關領域裡，有人寫道「我在解決埃爾德什問題」。它是用完全不同的語言編寫的，屬於不同的數學分支。你必須做工作把這兩部分連結起來，而 GPT 做到了。這太神奇了。這在當時還比較隨機，我們只是在 ChatGPT 介面上手動嘗試。看到這些後，我們團隊的 Mark Selke 決定採用更系統的方法嘗試所有問題，模型給出了 10 個埃爾德什問題的解法。你要記得，當時關於模型是否能超越現有技術水準去發現、發明新數學仍有激烈的討論。

我對這個結果非常興奮並發布了推文。那則推文後來有點「惡名昭彰」，因為人們誤解了我的意思，以為它真的憑空想出了 10 個非常困難的開放問題的全新解法，且文獻中從未存在過。但事實並非如此。它與之前的情況相關，即「深度文獻搜尋」。當時還和 Google 的 Demis 關於如何描述此類結果產生了一些爭論。但現在的重點非常驚人，也就是幾個月後的今天。我當時說的是 10 個開放問題的解法，而那些解法存在於文獻中。那麼問題來了：你能找到文獻中不存在的解法嗎？到目前為止，我們已經擁有超過 10 個真正的全新解法，完全可以在組合數學的一流期刊上發表，這些解法完全是由 ChatGPT 或我們的內部模型得出的。這再次說明了加速度：在短短幾個月內，我們就從「說能解 10 個埃爾德什問題聽起來很荒謬」變成了「這正真實發生且在加速」。

AI 將會讓我們重新理解科學進步的本質

Andrew Mayne：這很有趣，因為第一步似乎是讓模型能做極好的文獻研究。在此之前已經有很多重大論文和獎項頒給了那些透過文獻搜尋發現「這裡的問題其實在別處已被解決」的人。所以第一步做到這一點很酷，但現在它真的在進行原創研究了。我非常喜歡 AI 研究的一點是，它迫使我們去面對關於智慧、研究和進步以及我們如何發現新事物的重大問題。特別是，我們在科學中看到的進步，究竟只是把不同的碎片拼湊在一起並進行一點推理，還是真的存在那些天才般的靈感閃現？

Sebastian Bubeck：當然，每個人都會指向愛因斯坦的相對論，但老實說，我不確定那是否真的算數。所以，關於這種僅僅透過「重新組合」加「一點思考」的過程是否能無限制地增加人類知識，還是我們真的需要那種某種程度上只有人類才具備的「天才火花」，目前尚無定論。

Andrew Mayne：甚至愛因斯坦自己也歸功於某人，我忘了是誰了，但那人提出了類比和視覺化的方法。他說那不是他發明的，我們指出是誰做的，而他顯然只是將其向前推進了一步。我想我們有時太迷戀這些簡單的小故事了，而現實往往比這複雜得多。

Sebastian Bubeck：是的，完全正確。

Andrew Mayne：如果我們在 AI 中擁有更好的數學工具，對廣大的科學家意味著什麼？它如何影響生物學、材料科學等其他領域？

Sebastian Bubeck：關於這如何影響其他科學領域，我想讓大家理解這一點非常重要：我們並不是在為數學做某種非常特殊的事情，我們的技術和訓練方法是非常通用的，它們適用於一切。所以我們的預期是，我們之所以在數學上看到更多進展，原因之一是它非常容易進行基準測試，很容易看到進步；但我們完全期待這會發生在所有科學領域，而不僅限於數學。

構建 AI 「自動化研究員」：讓模型在更長時間跨度工作

Andrew Mayne：AI 似乎非常擅長這種推理：「如果這是真的，那麼那也是真的」，並完成一長串此類陳述，這在其他地方有很多應用。我們聽過「自動化研究員」（auto-researcher）這個詞。你想詳細展開聊聊嗎？

Sebastian Bubeck：目前我們的工作方式正是 Ernest 所描述的那樣，實際上是一種「互動」。這有點像教授與學生之間的互動，ChatGPT 是學生，教授給出第一個問題，學生回來回饋，然後他們交流一下；學生回去再研究一週，然後再回來。當然，關鍵的一點是，這種模式極大地壓縮了時間線。在 Ernest 解決那個問題的案例中，花了 12 個小時。我想知道，如果沒有 ChatGPT，你會花多久？

Ernest Ryu：在沒有 AI 的情況下，我已經花了超過 40 小時且失敗了。我不知道，如果全靠自己，可能需要一個月。

Sebastian Bubeck：沒錯。所以這裡存在這種壓縮時間線的作用。而當我們談論「自動化研究員」時，那是一個略有不同的願景：模型或模型群集可以自主工作很長一段時間。如果我們想超越當前的水平，這是必需的。這種「學生一週後回來」的教授-學生互動模式，很難實現真正的突破，很難解決那些懸而未決的研究難題，或者在生物學等需要與濕實驗室互動並進行各種實驗的極難領域取得進展。一旦你想追求真正的突破，我們就需要模型在更長的時間跨度內工作。這就是自動化研究員介入的地方。

或者換種說法，我非常推崇的一個概念是「AGI 時間」。你可以有 AGI 秒、分鐘、小時、天等等。這意味著你擁有一個 AI，它可以模擬人類思維，但能持續多久？正如 Ernest 所說，兩年前，模型可能在模擬一個思考幾分鐘問題的高中生。現在我們可以模擬一個能思考數小時、甚至幾天的研究員。我們真的希望朝著這個方向邁進——而且這種進步在過去四年裡非常一致，我們字面上經歷了從秒到分鐘、到小時、到天的跨越。現在我們大致處於「天」到「一週」的階段。我們希望走向「週」甚至是「月」。這是開放性的研究，我認為地球上沒人確切知道該怎麼做。但這又回到了那點：我們正在進行大量的研究和創新，我認為當一切整合在一起時，我們會看到這條持續在「AGI 時間」上取得進步的弧線。這就是自動化研究員的方向。

Ernest Ryu：我交流過的其他數學家，他們使用 AI 的模式是打開 ChatGPT，然後在那個上下文窗口內進行交流。你可以有多個會話，但每個會話都有有限的上下文長度，約相當於 50 頁數學論文的容量。這對於做出真正的深度數學、開創性的數學突破來說是不夠長的，因為很多數學論文都超過 50 頁。而且，產出一篇 10 頁或 30 頁論文所投入的人類思考量，通常比最終輸出的內容要長出好幾個數量級。

所以有限的上下文窗口是一個限制。但用過 Codex 的人會知道，你實際上可以與 Codex 進行非常長的工作會話。你只需不斷給出關於你想寫什麼樣的程式碼的指令。而你正在處理的程式碼本身，即你的程式碼庫（在數學語境下，類比就是你寫下的數學筆記），可以變得非常非常長。Codex 非常擅長處理這種情況。它偶爾會壓縮對話內容，它有辦法成為一個真正驚人的智慧體，在巨大的程式碼庫和極長的對話上下文中完成極其複雜的任務。

我相信數學研究也會發生同樣的事情。我們將能夠讓大語言模型（LLM）解決那些思考過程超過 50 頁的問題。這就是人類數學家所做的：人們在某個問題上思考一天，然後總結想法並記入筆記；第二天或下一週再回來研究。經過幾個月，我們思考了很久，但它被總結、組織成了可管理的模式。最後，最終產出變成了總結數月甚至數年思考的 30 頁論文。

AI 賦能科學研究

Andrew Mayne：是的，我認為這會發生。週末我正在處理一個對你們來說非常可笑的問題，試圖用 LLM 弄清楚如何讓一個小規模 LLM 做數學。中間我需要一個基準測試，於是我發現了 Easy Math（一個針對小型 LLM 的基準測試），但那只是一篇論文，沒有太多數據。在 Codex 工作的中途，我說：「你能在這裡為我創建基準測試並生成數據嗎？」五分鐘後，我就拿到了。這對我來說太神奇了，因為以前我得花好幾個小時去寫生成器之類的。

Sebastian Bubeck：當然，而且它是在後台運行的。我無法想像你們在處理「成年人級別」的問題時是什麼樣子。你所描述的，正是我們發表那篇標題為《利用 GPT-5 加速科學的早期實驗》的論文時所追求的目標。你體驗到的是字面意義上的「加速」。這在以前可能需要你工作好幾天。

Andrew Mayne：或者我會直接放棄。

Sebastian Bubeck：是的，這正是重點。它賦能了各地的科學家，比如讓數學家能夠使用程式碼。我們的很多朋友並不寫程式碼，而現在突然間他們有了 Codex。他們可以親自完成以前只能找可憐的研究生去做的所有實驗。現在他們可以非常輕鬆地完成。反過來說，得益於 ChatGPT，所有學科的科學家現在也可以使用更先進的數學。

人類必須控制和引導 AI 解決重要的問題

Andrew Mayne：我曾和 Bob Metcalf 坐在一起，教他如何使用 Codex 寫 R 語言，因為他正在做一個專案，而 R 對他來說是全新的。把一個擁有偉大頭腦的人帶入其中，告訴他：「嘿，不用花大量時間去摳細節，這就是你的工具」，這是一種非常有趣的經歷。但當然，正如你之前提到的，我們應該談談人類在這一切中的角色。尤其是當我們開始思考未來時。我不迷戀預測未來，我喜歡解釋已經發生的事……但你認為會發生什麼？

Sebastian Bubeck：我想，這其中有我內心的直覺，也有理性的考量。理性的想法是：看，過去四年的進步非常一致。從解決幾秒鐘的數學問題，到分鐘、到小時、到天。沒有任何理由認為這種趨勢會停止。任何觀察這種現狀的人都會說：一年後，你將擁有可以思考數週的系統；兩年後，系統可以思考數年。不僅如此，今天我們就已經發現我們的模型在某些方面能夠超越人類，比如在論文中糾錯。我們內部有智慧體能夠找到論文並指出：「嘿，這其實是錯的，正確答案在這。」

不僅如此，人們傾向於認為 AI 只擅長回答問題。其實不然，它也非常擅長「提問」。當然，這需要一些研究創新，而我們已經做到了。現在我們的模型非常擅長提問，甚至到了人類看到這些問題會說：「嘿，也許我應該根據這個問題寫篇論文」的程度。這已經在發生了。我想說的是，在一兩年內，模型可以完成人類研究員所做的基本所有工作。那麼接下來呢？人類的角色是什麼？我們為什麼要搞科學？意義何在？意義不應該是為了解題而解題。我們解題是因為我們在試圖「理解」某些東西。

理解是關鍵。我們解題不是為了寫論文，或者為了證明我們寫的論文比鄰居多 10 倍。那不是重點。如果你喜歡解題本身，你可以去參加競技西洋棋。我們是在嘗試理解更深層的事物。為什麼要理解深層事物？因為我們想更好地控制我們的環境。我們想治癒疾病，想把東西造得更好、更快、更堅固、更穩固。所以我認為，只要人類保持控制並引導「哪些問題是重要的」，我們將迎來一個非常光明的未來。AI 並不在乎治癒疾病，它們不會像我們一樣遭受疾病之苦，但我們在乎，所以我們必須控制並引導它們解決這些問題。

AI 時代的數學將變得更有趣、更互聯、更可信和更快

Andrew Mayne：在第一台電腦問世時，當「電腦」從一個計算員變成一臺真正的機器，有些人認為我們都得從數學轉行去搞物理，因為物理才會有難題，數學難題都會被電腦解決。那是 20 世紀 40、50 年代的事，事實證明並非如此。計算開啟了一個全新的分支。這種趨勢會繼續，今天的高中數學家在 30 年後會擁有非常令人興奮的未來，正是因為現在發生的一切。

Ernest Ryu：我認為數學會變得非常有意思。在 AI 時代之前，我們要花幾個月來解決一個問題。雖然有樂趣，但過程非常艱辛。那是痛苦的，非常痛苦。而當你真的找到解法時，會有一股多巴胺激增。而這種體驗將被加速：更多的解法，更多的樂趣。

而且，我認為數學會變得更加豐富，因為它的互聯性會更強。在研究層面，很多數學是非常「小眾」的。當你寫一篇論文時，你知道現在活著的只有 5 個人會關心它。但你喜歡這個結果，所以你發表了它。20 年後，它會躺在某個存檔裡，沒人閱讀。但現在有了 AI，AI 會讀過它。如果存在某種有用的連結，就像 Sebastian 提到的，AI 會讓它浮出水面。100 年後的人們會發現並使用它。所以我現在更有信心，我發表的研究只要未來有用，就一定會被用到。同時，我也能以更廣泛的方式接觸數學。有些領域我沒學過，但如果出現了一個相關的結果，以前我必須先研究那個領域才能使用它，而沒有 AI 的輔助，我根本找不到那個結果。但現在它可以觸達了。模型告訴我：「嘿，你可以用這個來解決你的問題」，然後我就去嘗試。所以數學將成為一項互聯性更強的事業。

Ernest Ryu：而且，驗證數學的正確性其實是非常複雜的。想像一個 300 頁長的證明，聲稱解決了一個非常重要的問題。作者聲譽良好，論文表面看起來也合情合理。你如何確定它是對的？這個驗證過程往往需要數年。僅有一個人讀過是不夠的，需要很多人閱讀、嘗試擴展並深入細節。這個過程非常緩慢。有時，甚至會有致命錯誤的證明被發表。這導致整個領域最初接受了一個結果，後來才發現無法挽救，必須將其剔除。有了 AI，這將極大加速。目前 ChatGPT 和我們的 AI 模型在驗證數學方面還不完美，但已經非常出色了。而且，它比人類更有耐心。

Sebastian Bubeck：確實。事實是，許多已發表的數學研究都有小錯誤，很多甚至有大錯誤。我們知道這一點是因為我們用模型測試過。但我認為數學更豐富的未來將透過 AI 驗證來實現。我們將對哪些結果正確、哪些錯誤有更高的確定性，並獲得更快的回饋。一週前發表的論文，我們馬上就能得到驗證。我們可以放心地在此基礎上構建，而不需要等上五年才確定其正確性。總的來說，數學會更有趣、更互聯、更可信、更快，數學家將解決更難、更有趣的問題。

防止過度依賴 AI 而變得淺薄，深度理解比以往更有價值

Sebastian Bubeck：我完全同意。但我還想談談當前進展的一個潛在危險：我們可能會把「城堡的鑰匙」交給 AI，人類開始過度信任系統，而不再進行刻苦訓練來掌握技能。我們曾經為了一個結果，耐心地坐上幾個小時、連續幾天甚至幾週，而現在可能只是讓 ChatGPT 用簡單的術語解釋一下。我擔心過度依賴工具會導致理解變得淺薄。所以我認為，對聽眾和每位聽眾來說，理解這一點非常重要：專業知識比以往任何時候都更有價值。 我們之所以能從 ChatGPT 中挖掘出這些結果，是因為我們多年的訓練和對學科的深度理解。如果沒有這些，我們無法推動前沿技術的進步。我們已經看到了例子：並不是成千上萬的非數學家突然就能證明新結果了。事實上，我們在社群媒體上看到一些反例，非數學家嘗試用這些工具證明定理，寫出了幾十頁的證明，結果全是錯的。這是我們必須面對的危險。

Andrew Mayne：這似乎在很多事情上都會成為問題。人們使用現在的模型往往只是為了強化自己想聽到的內容。比如「我要提出某種統一場論」之類的。猜猜看？那會難得多。

Ernest Ryu：這種「精神萎縮」的問題在程式設計中也非常突出。我不是電腦專業的，但我上過課，也自己寫過程式碼。我曾與除錯器搏鬥，我這個年紀的多數人都經歷過。但現在，在大學課程裡你甚至不需要經歷這些了。我認為這非常危險。

AI 會幫助年輕一代更快進入科學前沿

Andrew Mayne：我聽到一些科學界人士對進展非常樂觀，甚至說「我們不再需要科學家了」。

Sebastian Bubeck：不，完全不是。哇，這種說法太可怕了。我真的希望任何在聽的人都不要這麼說。這與我們的需求恰恰相反。我們比以往任何時候都更需要科學家。這些科學家將更有效率、更強大，做出更好的成就。但我們需要他們在自己的手藝上非常、非常精湛。顯然 OpenAI 不能包攬一切，現有的機構（學術界）有非常重要的作用。學術界既需要理解進步的速度，也需要在這個過程中重新找回自己的角色。

Andrew Mayne：我的希望和預期是，我們會看到更多人進入科學領域。如果你在人生較晚的階段決定加入，只要你專注，追趕起來會更容易，因為你擁有世界上最偉大的導師。OpenAI 在 ChatGPT 中加入了視覺解釋工具。僅僅因為 AI 模型在某個基準測試中登頂，並不意味著任務完成了。這就像：「我們解決了小學數學，恭喜大家，AI 完工了。」不，還有下一個關卡，再下一個關卡，而這些都需要人類。

Sebastian Bubeck：是的，它會幫助年輕一代更快地進入科學前沿。如果我十幾歲時就有 ChatGPT，那簡直不敢想像。我記得當時看馬克士威方程組（Maxwell's equations），心想：「這到底是什麼意思？他們是怎麼想出來的？」現在你可以直接問它，它會解釋得非常漂亮。這意義重大，但你仍然需要在此基礎上付出艱苦的努力。

Andrew Mayne：我們在程式碼庫之類的地方看到，人們提交的修復並不是真正的修復，諸如此類。你如何解決這個問題？如果我現在是數學界人士或者是期刊編輯，我會感到有點害怕。

Sebastian Bubeck：是的，我認為正如 Ernest 所說，AI 也可以幫上忙。我們可以在系統的另一端配備 AI 智慧體，讓它們也去檢查所有內容，盡可能進行驗證。當然，我們不想完全信任 AI 來驗證並決定是否接受論文或評論，但我們可以讓 AI 智慧體標記出具體的潛在問題。比如它會提醒：「嘿，這一部分我不太確定。」這會加速進程，基本上是幫助人類減少需要親自驗證的工作量。

Ernest Ryu：而且我認為數學或程式碼的社會結構需要做出一些改變，即提交程式碼的人或控制智慧體的人要承擔責任。在數學界，已經存在一種文化：如果你發表了一個錯誤的證明，那會損害你的名譽。當你發表一篇署名文章時，你是在用名譽做擔保。我認為我們需要更多這樣的約束。

用 ChatGPT 學數學：根據盲點提問，讓它提問題

Andrew Mayne：如果有觀眾或聽眾對數學感到好奇，也許他們有興趣但覺得自己不是那種「數學天才」，但又想嘗試開始，你會對他們說些什麼？

Ernest Ryu：去找 ChatGPT 聊聊。如果你對學習感興趣，它會非常有幫助。即使在研究層面，當我需要學習一個新概念時，習慣上我會去查維基百科，但那裡內容非常晦澀。大概過了 30 秒，我就會想：好吧，讓我問問 ChatGPT。我會向它提問並進行追問。這樣做時，它能提供非常實用的資訊，這些資訊是針對我知識中缺失的部分量身定製的，因為我是根據自己的盲點來提問的。

你可以向 ChatGPT 介紹你的數學背景、讀過的書、學過的材料，然後讓它提出一個既是開放性的、又能以你的專業水準理解的問題。Sebastian 提到過這一點，我覺得人們還沒意識到這些大模型能夠提出很好的問題，但我認為它們可以。所以，擁有一個可以交流數學和問題的夥伴，你可以讓模型幫你解題；一旦有了答案，你可以繼續交流並提出下一個問題或相關的變體。這讓過程變得更加豐富，儘管你還是獨自待在房間裡，但這感覺不再是一個孤獨的過程。而這正是數學的真正樂趣所在，因為數學本質上是一項社會性的事業。

Andrew Mayne：我覺得趣味智力題也會很有意思。我告訴人們，你可以從「浴缸裡能裝多少個 M&M 巧克力豆」這種聽起來很傻的問題開始。你開始提問，接著會問：去年你讀了多少個單詞？你會怎麼算出來？然後你可以開始一段美妙的對話。不知不覺中，你就開始接觸越來越複雜的數學，並意識到它對你的影響。二位，這太棒了。Sebastian，Ernest，非常感謝你們。

Sebastian Bubeck：謝謝。

Ernest Ryu：謝謝邀請我們。

參考連結：

https://www.youtube.com/watch?v=9-TVwv6wtGQ

——好文連結——

Token效率國內第一！MiMo-V2.5 Pro登頂開源Agent王者；羅福莉：OpenClaw是巨大分水嶺，模型與Harness需同步演進，MLA不符合Agent範式

OpenAI下場造手機？高通股價已暴漲！Sam：現在的硬體配不上AI！前蘋果CEO：OpenAI是庫克時代以來最大的競爭對手

DeepSeek太狠了，兩天連砍兩次價！百萬Token輸入只要0.025元！同行都看懵了！網友：國產模型+國產算力就是這麼牛！

ChatGPT數學進階之路！OpenAI研究員自爆：從數不清數到給出埃爾德什問題全新解法；數學是衡量模型進步的重要基準；AI自動化研究員

AI 賦能科學研究

防止過度依賴 AI 而變得淺薄，深度理解比以往更有價值

相關文章推薦

分享網址