博士生熬夜80小時改程式碼,Codex 2小時就搞定!科研奇點真的來了

圖片

新智元報導

編輯:Aeneas 定慧

【新智元導讀】Agentic AI 工程師最新發現:博士生得花上 80 小時的科研任務,Codex 竟然不到 2 小時就跑完,效率差距高達 40 倍!其實按照舊標準,AGI 早就出現了,只是整個業界都在偷偷移動球門。

科研界的「奇點」真的來了,而且比所有人預想的都還要近。

近日,一項針對 Codex「目標模式(Goal Mode)」的實驗震驚了學術界:Codex 能讓 AI 的科研效率暴增 40 倍!

Agentic AI 工程師 Dan McAteer 近期在 X 平台上揭露了一項實驗:利用 OpenAI Codex 的 Goal Mode 來執行一項機械可解釋性(Mechanistic Interpretability)研究任務。

圖片

GPT-5.5 自己估算,這項任務若由博士生來做,可能需要大約 80 小時才能完成。然而,在實際操作中,AI 僅僅用了 1 小時 56 分鐘就徹底搞定。

圖片

表面上的效率提升約 40 倍!

圖片

他所用的是 Codex 中一項內建技能 /goal

而且作者認為:

/goal + gpt-5.5 高精度 + 快速模式,是當今最高效的 AI 智能體配置。

也就是說,讓模型自行設定目標,其中的關鍵就在於:它寫出來的提示詞,很可能比你寫的還要出色。

圖片

這不再是單純的「效率提升」,而是一場徹頭徹尾的「降維打擊」。

當科研週期從以「週」為單位,縮減到以「小時」計算,當 AI 開始自主撰寫自己的實驗目標(/goal),我們不得不承認一個殘酷的現實:

「智慧爆炸」的斜率已經現身,AI 的自我迭代速度正在脫離人類的掌控節奏!

圖片

Codex /goal 模式到底是什麼?

先來看看這個實驗是怎麼進行的。

實驗發起人是 Dan McAteer,一位 Agentic AI 工程師,也是前 Amp Code 工程師。

他常年都在 X 平台上分享 AI agent 工程化的具體實踐。

圖片

他的實驗配置很簡單——

工具:OpenAI Codex /goal 指令

模型:GPT-5.5 high

模式:fast mode

任務:一項機械可解釋性(Mechanistic Interpretability)方向的研究任務

他自己對這套配置的描述是:當前可用的最高效 AI 智能體配置。

圖片

Codex /goal 為什麼重要

這件事真正值得談的,是 Codex /goal 這個模式本身。

圖片

根據 OpenAI Codex 工程師 Philip Corey 的描述,/goal 是我們對 Ralph loop 的一種實作——讓目標能在多輪對話中持續存在,不達成目標就不停止。

簡單來說,普通的 Codex 調用,是你說一句、它做一步、再回你一句。

而 Codex /goal 則是你說一個目標,它就會自己拆解子任務、自己執行、自己審查、自己繼續,直到達成目標或失敗為止。

這是從對話式 AI 到目標驅動 AI 的工程切換。

圖片

對於機械可解釋性這類研究任務,/goal 模式的天然契合度非常高。

研究流程本身,就是提出假設→設計實驗→執行→查看結果→修正假設→再實驗的循環,正好可以丟給一個會自我循環的 agent 來處理。

McAteer 的實驗真正證明的,是 Codex /goal 模式在科研型循環任務上的可用性:它並非用來取代研究員,而是取代研究員那些重複操作的環節。

圖片

這項能力如果能穩定下來,對 AI 研究本身將帶來非常直接的槓桿效應。

它意味著,AI 實驗室自己內部的 AI 研究員,未來某天或許能用 AI agent 來完成訓練資料準備、實驗設定、消融研究、視覺化生成,以及初步結果分析等重複性工作。

這也正是 Anthropic 和 OpenAI 最近反覆提到的:AI 正在加速 AI 研究本身。

圖片

博士生 80 小時 vs AI 2 小時

在傳統的科研語境下,一名博士生的日常就是:查閱文獻、建構模型、除錯程式碼、驗證結果、撰寫報告。

這套流程之所以如此漫長,是因為人類大腦在處理複雜邏輯與海量數據時,存在物理上的極限。

但 Codex 的這次實驗,徹底打破了這種認知。

圖片

「/goal + GPT-5.5 High + Fast Mode」的最強智能體配置下,AI 不再是一個「聽指令」的工具,而是一個「提出策略」的獨立研究員。

它能夠理解複雜的自然語言自動編碼器(NLA)實驗需求,自主拆解任務,並在不到 2 小時內,走完人類菁英需要花上兩週才能走完的路。

這代表著,從此人類的科研門檻徹底崩壞。過去需要寒窗苦讀數年才能換來的專業分析能力,如今正被演算法模組化。

而且,自主 AI 研究員已經提前降臨了!

OpenAI 先前設定的目標,是在 2026 年底實現 AI 自主科研。

但從目前的實驗進度來看,2026 年可能不是開始,而是人類徹底交出科研接力棒的終點。

圖片

遞迴自我改進,正在湧現

如果說 Codex 的 40 倍速實驗是一個刺眼的個案,那麼更讓人坐立難安的,是圍繞「遞迴自我改進」的證據,正密集湧現。

5 月 7 日,據 Axios 報導,Anthropic 共同創辦人 Jack Clark 公開給出了一個機率:

到 2028 年底,AI 實現完全遞迴自我改進的機率,超過 60%。

圖片

圖片

Sakana AI 與 UBC 的研究團隊,今年打造出了 Darwin Gödel Machine,一個能改寫自身原始碼來提升自身能力的程式開發智能體。

圖片

論文連結:https://arxiv.org/abs/2505.22954

在 SWE-bench 上,它的得分從 20.0% 自我提升到了 50.0%。全程沒有人類插手。

圖片

同一個團隊的 AI Scientist 專案,今年 3 月更登上《Nature》期刊。

它能自己產生研究想法、寫程式碼跑實驗、撰寫完整論文,甚至還能做同儕審查。

一整條科研流水線,從頭到尾,全由 AI 獨立完成。

圖片

再看一組硬數據。GPQA Diamond,一個由博士專家出題的科學問答基準。2023 年 11 月,GPT-4 得分為 39%。人類領域專家的平均水準,大約是 65%。

到了 2026 年 4 月,前沿模型集體越線:Gemini 3.1 Pro 得分 94.3%,Claude Opus 4.7 得分 94.2%。

所有前沿模型,都已遠遠甩開人類博士專家。

圖片

SWE-bench 的軌跡,更能說明這種加速度。

圖片

2023 年底,Claude 2 的通過率只有 2%。如今,已是 93.9%。

短短兩年半,就從 2% 飆升到 93.9%。

這條曲線畫出來,任何一個學過高中數學的人,都認得它的形狀。

很顯然,遞迴自我改進(RSI)的進程已經啟動。

一旦 AI 開始用這種 40 倍的效率,去改寫自己的底層程式碼、優化自己的架構,智力的增長將不再是線性的,而是直線向上暴衝。

圖片

AGI 早已交付,全業界都在對你「煤氣燈」

其實,早在今年 2 月,四位來自不同頂尖領域的學者,就聯名發表了一篇堪稱「年度最令人不安」的論文:《AGI 案例研究:今日 LLM 已達標》。

圖片

這四位作者分別代表了當代智力的四大支柱:哲學、機器學習、語言學、認知科學。他們得出了一個令人毛骨悚然的一致結論:

按照 2022 年之前的定義,AGI 其實早就實現了。

之所以現在還沒人承認,是因為整個 AI 產業正在對公眾進行一場集體性的「煤氣燈效應」

論文指出,人類在面對 AI 崛起時,表現出了一種極強的「心理防衛機制」。

圖片

2022 年前,只要能通過圖靈測試、能跨領域處理任務,就是 AGI。

ChatGPT 出現後:「光有這些不行,還得有完美的推理、得有身體(具身性)、得有自我意識。」

每當模型突破一個關口,人類就會即興加入新的、虛無縹緲的指標作為門檻,不斷移動球門。

問題是,如果 AGI 已經存在,那麼現在的行業邏輯就變得極其荒誕。

OpenAI 還在募集 400 億美元,聲稱要「建構 AGI」;Anthropic 每次發表新模型,都要包裝成「接近 AGI」的期貨。

論文犀利地揭示:巨頭們正在把一個「早已賣給你」的東西,偽裝成「即將研發出來」的神蹟,藉此換取源源不絕的資金與權力。

圖片

圖片

智慧爆炸前夜

如今,我們正處於一個極其詭異的節點。

在實驗室裡,AI 已經用 40 倍速在進行機械解釋性研究,甚至在幫自己寫程式碼。

在市場上,算力依然是硬通貨,NVIDIA 的 Blackwell 晶片被瘋狂搶購,每一塊晶片都在加速那個奇點的到來。

然而,在社會心理層面,大眾還在用「複讀機」和「機率預測」這種過時的詞彙,來安慰自己。

如果 40 倍速的科研效率成為常態,人類文明積累了幾千年的知識總量,AI 可能只需要幾個月就能翻倍。

當 AI 能夠獨立完成博士級任務時,我們現有的教育體系、職稱評定,甚至「專家」這個詞本身的含義,都將面臨滅頂之災。

正如哥白尼將地球移出了宇宙中心,現在的 AI 正在將人類移出「唯一智慧生命」的聖殿。

此刻,這場名為智慧爆炸的戰爭沒有硝煙。

我們要麼學會如何與這種智慧新物種共生,要麼就只能眼睜睜地看著它,以 40 倍的速度,把我們甩在歷史的塵埃裡。

參考資料:

https://x.com/daniel_mac8/status/2054192370049241203

圖片

圖片

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.