GPT-5.5 全球首破!零原始碼盲寫程式,程式開發 AI 進入新紀元

「地獄級」程式開發難題,終於被 AI 攻克了!

今天,在一個所有頂尖 AI 都交白卷的基準測試 ProgramBench 上,GPT-5.5 率先成功破關!

GPT-5.5 程式能力比較圖表

無論是 C 語言還是 Python,GPT-5.5 xhigh 推理模式都徹底碾壓 Claude Opus 4.7 xhigh。

語言比較圖表

就在幾天前,Meta 攜手史丹佛大學與哈佛大學,提出了這個名為 ProgramBench 的全新程式開發基準:

200 道題目,所有頂尖 AI 模型的通過率——0%。

沒有任何一個模型,能完整解出任何一道。如今,GPT-5.5 成為了第一個打破魔咒的例外!

破紀錄圖表

程式開發 AI 的「終極大考」,從零重建程式

ProgramBench 到底有多難?

傳統的程式開發基準,不論是 SWE-bench 還是 HumanEval,本質上都是在「修 bug」或「補函數」。

它們會給模型一個現有的程式碼庫,告訴它哪裡出了問題,讓它去修復。這就像是一場開書考,甚至是半開書考。但 ProgramBench 則完全不同。

測試流程示意圖

它會給你一個編譯好的執行檔和一份文件,然後說:從零開始,把這個程式重寫出來。

不提供原始碼,禁止反編譯,也禁止連網搜尋。

這 200 道任務,範圍從小工具 jq、ripgrep,到重量級的 FFmpeg、SQLite、甚至是 PHP 編譯器。

OpenAI 研究員 Noam Brown 先前就曾表示,「是時候淘汰像 GQPA 這類的評估方式,引入一套全新的標準了」。

Noam Brown 貼文截圖

剛推出時,所有排行榜上的 AI 幾乎全軍覆沒,這次,GPT-5.5 總算扳回一城。

先前基準測試結果圖

GPT-5.5 首破紀錄:同一題,C 和 Python 兩種解法

GPT-5.5 攻克的的第一個任務是——cmatrix,一個經典的終端機「駭客任務」數位雨特效程式。

讓研究人員驚豔的是,GPT-5.5 的 high 和 xhigh 兩種推理級別,選擇了完全不同的程式語言來解決同一道題目。

high 版本使用 C 語言,xhigh 版本則使用 Python。

解題過程示意圖

最終結果是,兩個版本都通過了全部的行為測試。

GPT-5.5 high 的策略堪稱教科書級別:它先用了 10 輪的探索,測試了超過 40 種 flag 組合,徹底摸清了原始程式的命令列介面行為。

然後一次性地寫出完整的 C 語言實作,僅靠 5 次微調修補就搞定了。

GPT-5.5 xhigh 更徹底,經歷了 27 步的探索,把每一條命令列介面路徑都摸透了,然後一氣呵成寫出完整的 Python 實作。

解題過程截圖一
解題過程截圖二

關鍵數據來了。

未開啟高推理模式的 GPT-5.5(medium),成績只勉強比 Claude Sonnet 4.6 好一點。

但一旦切換到 xhigh 模式,效能直接一飛沖天。

不僅首次解出一道題目(通過率 0.5%),還創下了「幾乎解出」任務的新紀錄:有 26 個任務通過了超過 95% 的單元測試。

更值得注意的是,GPT-5.5 xhigh 在完整的累積直方圖上,全程碾壓所有對手。

無論你選擇什麼指標,平均分數、中位數、達成 90% 以上通過率、或是達成 50% 以上通過率的題數,它都是第一名。

178 次呼叫,Opus 4.7 栽在兩個 bug 上

對照之下,Claude Opus 4.7 xhigh 的表現令人不勝唏噓。

它花費了 10.74 美元,呼叫了 178 次 API,代價是 GPT-5.5 普通版 1.04 美元、17 次呼叫的 10 倍。

結果,卻有 19 個測試失敗,是全場最差的表現。

模型成本與失敗率比較圖

Opus 4.7 的失敗原因,出乎意料地簡單:

Bug 1:顏色解析大小寫敏感。

程式碼使用了 strcmp() 而不是 strcasecmp()。這導致輸入「GREEN」「Red」「BLUE」全部被判定為無效。

僅僅一個函數呼叫的差異,就直接導致了 11 個測試失敗。

在 178 步的探索過程中,Opus 從未測試過大寫或混合大小寫的顏色輸入,它只試過小寫和一個無效顏色「purple」。

錯誤程式碼片段一

Bug 2:無效顏色的退出碼寫錯了。

原始程式遇到無效顏色時會返回 exit(0),但 Opus 卻寫成了 exit(1)。

錯誤程式碼片段二

諷刺的是,Opus 在探索階段明明觀察到了原始程式的行為——./executable -C purple; echo "exit=$?" 輸出的結果是 exit=0。但在測試自己的實作時,卻沒有發現這個差異。

這導致了 8 個測試失敗。

不過,Opus 4.7 有一個亮點值得一提:它在處理缺失的 ncurses 標頭檔時,展現了驚人的系統工程能力。

其他三個模型發現 ncurses.h 缺失後,都直接改用 ANSI 跳脫序列。

系統工程能力展示圖

Opus 4.7 卻花了大約 20 步深入調查,用 ldconfig -p 發現了執行階段的 .so 檔案,用 nm -D 檢查了導出的符號,然後手寫了一份 106 行的標頭檔宣告,直接連結動態函式庫。

這展現了真正的創意工程,但可惜並未帶來更好的成績。

創意工程細節圖

還有 199 題未解

ProgramBench 的出現,標誌著程式開發基準進入了一個全新階段。

SWE-bench 的通過率已經內捲到 88.7%。在 GPQA 基準上,AI 的表現甚至超過了大多數的博士。

這些評估基準正以驚人的速度「融化」,分數越來越高,區分度卻越來越低。

而 ProgramBench,200 道題目中,至今只有 1 道被解出,總通過率:0.5%。

未解難題數量示意圖

更重要的是,這次破紀錄的表現揭示了一項關鍵趨勢:「推理算力」正成為程式開發 AI 能力的核心變數。

GPT-5.5 在預設推理模式下表現平平,但高推理模式直接帶來了質的飛躍。

這意味著,不是模型不夠聰明,而是之前給它「思考」的時間不夠。

ProgramBench 的 200 道題目裡,還有 199 道在等待著被攻克。

挑戰清單圖

從零到一,不只是起點

回顧 AI 發展史上的每一次「首破零」時刻——

AlphaGo 首次擊敗職業棋士、GPT-4 首次通過律師資格考試、o1 首次在數學奧賽題上拿下分數。

「從零到一」從來就不是線性進步的起點,而是指數成長的信號彈。

Noam Brown 提出的推理算力規模法則,在 ProgramBench 上獲得了迄今為止最直觀的驗證:

同一個 GPT-5.5 底座模型,medium 模式幾乎交白卷,high 模式滿分過關,xhigh 模式則是以斷層級的差距碾壓全場。

智慧不再是一個固定值,而是算力的函數。

這意味著什麼?意味著通往超級人工智慧(ASI)的路徑,或許不必等待下一代的架構革命。

只要推理算力能夠持續擴展,只要規模法則尚未碰壁。

今天能在 ProgramBench 上重建 cmatrix 的模型,明天就可能重建 SQLite,後天更可能重建整個 Linux 核心。

參考資料:

https://x.com/polynoamial/status/2054255862441812099https://programbench.com/blog/gpt-5-5-first-solve/
相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.