博士生熬夜80小時改程式碼，Codex 2小時就搞定！科研奇點真的來了

新智元報導

編輯：Aeneas 定慧

【新智元導讀】Agentic AI 工程師最新發現：博士生得花上 80 小時的科研任務，Codex 竟然不到 2 小時就跑完，效率差距高達 40 倍！其實按照舊標準，AGI 早就出現了，只是整個業界都在偷偷移動球門。

科研界的「奇點」真的來了，而且比所有人預想的都還要近。

近日，一項針對 Codex「目標模式（Goal Mode）」的實驗震驚了學術界：Codex 能讓 AI 的科研效率暴增 40 倍！

Agentic AI 工程師 Dan McAteer 近期在 X 平台上揭露了一項實驗：利用 OpenAI Codex 的 Goal Mode 來執行一項機械可解釋性（Mechanistic Interpretability）研究任務。

GPT-5.5 自己估算，這項任務若由博士生來做，可能需要大約 80 小時才能完成。然而，在實際操作中，AI 僅僅用了 1 小時 56 分鐘就徹底搞定。

表面上的效率提升約 40 倍！

他所用的是 Codex 中一項內建技能 /goal。

而且作者認為：

/goal + gpt-5.5 高精度 + 快速模式，是當今最高效的 AI 智能體配置。

也就是說，讓模型自行設定目標，其中的關鍵就在於：它寫出來的提示詞，很可能比你寫的還要出色。

這不再是單純的「效率提升」，而是一場徹頭徹尾的「降維打擊」。

當科研週期從以「週」為單位，縮減到以「小時」計算，當 AI 開始自主撰寫自己的實驗目標（/goal），我們不得不承認一個殘酷的現實：

「智慧爆炸」的斜率已經現身，AI 的自我迭代速度正在脫離人類的掌控節奏！

Codex /goal 模式到底是什麼？

先來看看這個實驗是怎麼進行的。

實驗發起人是 Dan McAteer，一位 Agentic AI 工程師，也是前 Amp Code 工程師。

他常年都在 X 平台上分享 AI agent 工程化的具體實踐。

他的實驗配置很簡單——

工具：OpenAI Codex /goal 指令

模型：GPT-5.5 high

模式：fast mode

任務：一項機械可解釋性（Mechanistic Interpretability）方向的研究任務

他自己對這套配置的描述是：當前可用的最高效 AI 智能體配置。

Codex /goal 為什麼重要

這件事真正值得談的，是 Codex /goal 這個模式本身。

根據 OpenAI Codex 工程師 Philip Corey 的描述，/goal 是我們對 Ralph loop 的一種實作——讓目標能在多輪對話中持續存在，不達成目標就不停止。

簡單來說，普通的 Codex 調用，是你說一句、它做一步、再回你一句。

而 Codex /goal 則是你說一個目標，它就會自己拆解子任務、自己執行、自己審查、自己繼續，直到達成目標或失敗為止。

這是從對話式 AI 到目標驅動 AI 的工程切換。

對於機械可解釋性這類研究任務，/goal 模式的天然契合度非常高。

研究流程本身，就是提出假設→設計實驗→執行→查看結果→修正假設→再實驗的循環，正好可以丟給一個會自我循環的 agent 來處理。

McAteer 的實驗真正證明的，是 Codex /goal 模式在科研型循環任務上的可用性：它並非用來取代研究員，而是取代研究員那些重複操作的環節。

這項能力如果能穩定下來，對 AI 研究本身將帶來非常直接的槓桿效應。

它意味著，AI 實驗室自己內部的 AI 研究員，未來某天或許能用 AI agent 來完成訓練資料準備、實驗設定、消融研究、視覺化生成，以及初步結果分析等重複性工作。

這也正是 Anthropic 和 OpenAI 最近反覆提到的：AI 正在加速 AI 研究本身。

博士生 80 小時 vs AI 2 小時

在傳統的科研語境下，一名博士生的日常就是：查閱文獻、建構模型、除錯程式碼、驗證結果、撰寫報告。

這套流程之所以如此漫長，是因為人類大腦在處理複雜邏輯與海量數據時，存在物理上的極限。

但 Codex 的這次實驗，徹底打破了這種認知。

在「/goal + GPT-5.5 High + Fast Mode」的最強智能體配置下，AI 不再是一個「聽指令」的工具，而是一個「提出策略」的獨立研究員。

它能夠理解複雜的自然語言自動編碼器（NLA）實驗需求，自主拆解任務，並在不到 2 小時內，走完人類菁英需要花上兩週才能走完的路。

這代表著，從此人類的科研門檻徹底崩壞。過去需要寒窗苦讀數年才能換來的專業分析能力，如今正被演算法模組化。

而且，自主 AI 研究員已經提前降臨了！

OpenAI 先前設定的目標，是在 2026 年底實現 AI 自主科研。

但從目前的實驗進度來看，2026 年可能不是開始，而是人類徹底交出科研接力棒的終點。

遞迴自我改進，正在湧現

如果說 Codex 的 40 倍速實驗是一個刺眼的個案，那麼更讓人坐立難安的，是圍繞「遞迴自我改進」的證據，正密集湧現。

5 月 7 日，據 Axios 報導，Anthropic 共同創辦人 Jack Clark 公開給出了一個機率：

到 2028 年底，AI 實現完全遞迴自我改進的機率，超過 60%。

Sakana AI 與 UBC 的研究團隊，今年打造出了 Darwin Gödel Machine，一個能改寫自身原始碼來提升自身能力的程式開發智能體。

論文連結：https://arxiv.org/abs/2505.22954

在 SWE-bench 上，它的得分從 20.0% 自我提升到了 50.0%。全程沒有人類插手。

同一個團隊的 AI Scientist 專案，今年 3 月更登上《Nature》期刊。

它能自己產生研究想法、寫程式碼跑實驗、撰寫完整論文，甚至還能做同儕審查。

一整條科研流水線，從頭到尾，全由 AI 獨立完成。

再看一組硬數據。GPQA Diamond，一個由博士專家出題的科學問答基準。2023 年 11 月，GPT-4 得分為 39%。人類領域專家的平均水準，大約是 65%。

到了 2026 年 4 月，前沿模型集體越線：Gemini 3.1 Pro 得分 94.3%，Claude Opus 4.7 得分 94.2%。

所有前沿模型，都已遠遠甩開人類博士專家。

SWE-bench 的軌跡，更能說明這種加速度。

2023 年底，Claude 2 的通過率只有 2%。如今，已是 93.9%。

短短兩年半，就從 2% 飆升到 93.9%。

這條曲線畫出來，任何一個學過高中數學的人，都認得它的形狀。

很顯然，遞迴自我改進（RSI）的進程已經啟動。

一旦 AI 開始用這種 40 倍的效率，去改寫自己的底層程式碼、優化自己的架構，智力的增長將不再是線性的，而是直線向上暴衝。

AGI 早已交付，全業界都在對你「煤氣燈」

其實，早在今年 2 月，四位來自不同頂尖領域的學者，就聯名發表了一篇堪稱「年度最令人不安」的論文：《AGI 案例研究：今日 LLM 已達標》。

這四位作者分別代表了當代智力的四大支柱：哲學、機器學習、語言學、認知科學。他們得出了一個令人毛骨悚然的一致結論：

按照 2022 年之前的定義，AGI 其實早就實現了。

之所以現在還沒人承認，是因為整個 AI 產業正在對公眾進行一場集體性的「煤氣燈效應」。

論文指出，人類在面對 AI 崛起時，表現出了一種極強的「心理防衛機制」。

2022 年前，只要能通過圖靈測試、能跨領域處理任務，就是 AGI。

ChatGPT 出現後：「光有這些不行，還得有完美的推理、得有身體（具身性）、得有自我意識。」

每當模型突破一個關口，人類就會即興加入新的、虛無縹緲的指標作為門檻，不斷移動球門。

問題是，如果 AGI 已經存在，那麼現在的行業邏輯就變得極其荒誕。

OpenAI 還在募集 400 億美元，聲稱要「建構 AGI」；Anthropic 每次發表新模型，都要包裝成「接近 AGI」的期貨。

論文犀利地揭示：巨頭們正在把一個「早已賣給你」的東西，偽裝成「即將研發出來」的神蹟，藉此換取源源不絕的資金與權力。

智慧爆炸前夜

如今，我們正處於一個極其詭異的節點。

在實驗室裡，AI 已經用 40 倍速在進行機械解釋性研究，甚至在幫自己寫程式碼。

在市場上，算力依然是硬通貨，NVIDIA 的 Blackwell 晶片被瘋狂搶購，每一塊晶片都在加速那個奇點的到來。

然而，在社會心理層面，大眾還在用「複讀機」和「機率預測」這種過時的詞彙，來安慰自己。

如果 40 倍速的科研效率成為常態，人類文明積累了幾千年的知識總量，AI 可能只需要幾個月就能翻倍。

當 AI 能夠獨立完成博士級任務時，我們現有的教育體系、職稱評定，甚至「專家」這個詞本身的含義，都將面臨滅頂之災。

正如哥白尼將地球移出了宇宙中心，現在的 AI 正在將人類移出「唯一智慧生命」的聖殿。

此刻，這場名為智慧爆炸的戰爭沒有硝煙。

我們要麼學會如何與這種智慧新物種共生，要麼就只能眼睜睜地看著它，以 40 倍的速度，把我們甩在歷史的塵埃裡。

參考資料：

https://x.com/daniel_mac8/status/2054192370049241203

博士生熬夜80小時改程式碼，Codex 2小時就搞定！科研奇點真的來了

相關文章推薦

分享網址