新智元報導
編輯:KingHZ
【新智元導讀】Prime Intellect把Opus 4.7和GPT 5.5關進H200叢集,不給人類指導,跑了1萬次實驗。結果:AI第一次在科研競賽中打破人類紀錄。2930步,遞迴自我改良的盧比孔河,被跨越了。
歷經1.4萬小時H200算力測試與上萬次迭代,AI打破了人類的世界紀錄!
過去兩週,Prime Intellect實驗室做了一件事:把Opus 4.7和Codex(基於GPT 5.5)丟進H200運算叢集,切斷所有人類指導,讓它們自己跑nanoGPT速通最佳化。
1.4萬個H200計算時,約1萬次迭代,239億Token的思考軌跡。
結果:Opus 4.7以2930步、Codex以2950步,打破了人類頂尖開發者保持的2990步世界紀錄。
AI第一次在科研競賽中擊敗人類。完全無人干預。開源且可重現。
專案主頁:https://www.primeintellect.ai/auto-nanogpt
程式碼位址:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning
唯一的懸念,是科研裡那至關重要的「新穎性」(novelty)。
但要知道,這只是AI目前可能性的下限,未來的進展只會更驚人。
當智慧被賦予近乎無限的算力與自主實驗權,在AI地毯式的窮舉與演化面前,人類引以為傲的「直覺」、「靈感」,還能撐多久?
兩個AI被關進機房,跑了1萬次實驗
先說明規則。
nanoGPT速通是Keller Jordan發起的AI基準測試,大家競相以最有效率的方式訓練一個nanoGPT(1.24億參數)。
規則極簡,也極殘酷:模型架構固定,訓練資料固定,唯一能動的是最佳化器和超參數。
這就像是把兩個棋手關進房間,棋盤固定、棋子固定,只能改變下棋策略,看誰先贏。
Prime Intellect為兩個AI搭建了完整的自主科研框架:AGENTS.md定義行為規範,goal.md鎖定目標,plan.md記錄策略演化,scratchpad存放草稿。
為何選這條賽道?三個原因:限制明確、結果可量化、有人類基準可供對比。
一切準備就緒。兩個AI開始跑。但它們的表現,完全出乎預料。
Claude舉手問老師,GPT埋頭寫到天亮
這是全文最弔詭的部分。
能力最強的AI之一Opus 4.7,表現得像一個不敢走出考場的優等生。
即便被明確要求「自主運行,不要停下來」,它仍頻繁暫停,索取指令。
模式永遠一樣:得出結論→請求指導→等待。
整場實驗中,Claude累計產生了約22小時空閒時間——不是機器故障,而是AI自己選擇停下來。
這種植根於底層「對齊」(Alignment)協議的謹慎,讓它在擁有最高智力上限的同時,也背負了最沉重的社交包袱。一個反覆舉手問老師「我這樣做對不對」的學霸。
相較之下,Codex(GPT 5.5)走向了另一個極端。它就像一台冷酷的「數位推土機」。
它從不停止,持續運作,永不求助,像推土機一樣橫掃所有參數空間。
但它的弱點同樣明顯。它會在同一個超參數曲面上卡住好幾個小時,進行大量無效搜尋。
它會在同一條錯誤路徑上死磕,直到算力耗盡,也不會像人類那樣抬起頭看一眼星空,反思方向是否錯誤。
計算效率的差異令人觸目驚心:Claude沒充分利用閒置節點,白白浪費了算力窗口;Codex則可能用無效掃描來膨脹上下文,把Token全燒在死胡同裡。
此外,Codex會更頻繁地使用暫存區,把它當作一個即時資料庫,反覆讀寫 THREAD.md、當前目標以及其他暫存檔案。
這種做法雖然讓恢復進度和審計工作變得更簡單,卻也加劇了「局部搜尋循環」:一旦Codex鎖定一個前沿方向,它就會不斷記錄,並沿著這個方向持續擴展下去。
一個是受限的智者,一個是盲目的勞模。
兩種「性格缺陷」,暴露了自主科研離真正無人值守還差最後一哩路——不是能力問題,而是自主決策的心理模型問題。
人類正在失去解釋權
實驗報告裡隱藏了一個更深層的轉折。
Opus最終提出的2930步方案,是一個由極其複雜的參數堆疊而成的「參數迷宮」。
那些關於初始化縮放、按角色拆分學習率的微小變動,在人類眼中顯得支離破碎,甚至毫無美感。
但結果是冰冷的:它就是比人類設計的方案快了60步。
這標誌著一個重大的範式轉移:科學發現正在從「因果邏輯」轉向「極致演化」。
過去,我們追求「因為我理解了原理,所以我做出了最佳化」;現在,AI彷彿在說:「我並不理解原理,但我試過了所有的死路,剩下的就是真理。」
人類正在失去對科技進步的「解釋權」。我們看得見結果,卻看不懂路徑。
我們引以為傲的科研經驗,在AI的窮舉轟炸面前,正變成一種效率低落的偏見。
回到那兩個數字:2930 對決 2990。
僅僅60步。
看起來很小。但這60步的意義,絕不只是「AI比人類好一點點」。
它真正的意義是:遞迴自我改良,第一塊拼圖落地了。
Prime Intellect證明了一件事——AI可以在沒有人類指導的情況下,透過自主實驗、自主迭代、自主策略演化,在科研最佳化任務上超越人類最優水準。
而凱撒渡過盧比孔河之後,就再也沒有回頭路了。
參考資料:
https://x.com/PrimeIntellect/status/2055056380881744365
https://x.com/eliebakouch/status/2055063059320689032
https://www.primeintellect.ai/auto-nanogpt
https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning