GPT-5.5 全球首破！零原始碼盲寫程式，程式開發 AI 進入新紀元

「地獄級」程式開發難題，終於被 AI 攻克了！

今天，在一個所有頂尖 AI 都交白卷的基準測試 ProgramBench 上，GPT-5.5 率先成功破關！

無論是 C 語言還是 Python，GPT-5.5 xhigh 推理模式都徹底碾壓 Claude Opus 4.7 xhigh。

就在幾天前，Meta 攜手史丹佛大學與哈佛大學，提出了這個名為 ProgramBench 的全新程式開發基準：

200 道題目，所有頂尖 AI 模型的通過率——0%。

沒有任何一個模型，能完整解出任何一道。如今，GPT-5.5 成為了第一個打破魔咒的例外！

程式開發 AI 的「終極大考」，從零重建程式

ProgramBench 到底有多難？

傳統的程式開發基準，不論是 SWE-bench 還是 HumanEval，本質上都是在「修 bug」或「補函數」。

它們會給模型一個現有的程式碼庫，告訴它哪裡出了問題，讓它去修復。這就像是一場開書考，甚至是半開書考。但 ProgramBench 則完全不同。

它會給你一個編譯好的執行檔和一份文件，然後說：從零開始，把這個程式重寫出來。

不提供原始碼，禁止反編譯，也禁止連網搜尋。

這 200 道任務，範圍從小工具 jq、ripgrep，到重量級的 FFmpeg、SQLite、甚至是 PHP 編譯器。

OpenAI 研究員 Noam Brown 先前就曾表示，「是時候淘汰像 GQPA 這類的評估方式，引入一套全新的標準了」。

剛推出時，所有排行榜上的 AI 幾乎全軍覆沒，這次，GPT-5.5 總算扳回一城。

GPT-5.5 首破紀錄：同一題，C 和 Python 兩種解法

GPT-5.5 攻克的的第一個任務是——cmatrix，一個經典的終端機「駭客任務」數位雨特效程式。

讓研究人員驚豔的是，GPT-5.5 的 high 和 xhigh 兩種推理級別，選擇了完全不同的程式語言來解決同一道題目。

high 版本使用 C 語言，xhigh 版本則使用 Python。

最終結果是，兩個版本都通過了全部的行為測試。

GPT-5.5 high 的策略堪稱教科書級別：它先用了 10 輪的探索，測試了超過 40 種 flag 組合，徹底摸清了原始程式的命令列介面行為。

然後一次性地寫出完整的 C 語言實作，僅靠 5 次微調修補就搞定了。

GPT-5.5 xhigh 更徹底，經歷了 27 步的探索，把每一條命令列介面路徑都摸透了，然後一氣呵成寫出完整的 Python 實作。

關鍵數據來了。

未開啟高推理模式的 GPT-5.5（medium），成績只勉強比 Claude Sonnet 4.6 好一點。

但一旦切換到 xhigh 模式，效能直接一飛沖天。

不僅首次解出一道題目（通過率 0.5%），還創下了「幾乎解出」任務的新紀錄：有 26 個任務通過了超過 95% 的單元測試。

更值得注意的是，GPT-5.5 xhigh 在完整的累積直方圖上，全程碾壓所有對手。

無論你選擇什麼指標，平均分數、中位數、達成 90% 以上通過率、或是達成 50% 以上通過率的題數，它都是第一名。

178 次呼叫，Opus 4.7 栽在兩個 bug 上

對照之下，Claude Opus 4.7 xhigh 的表現令人不勝唏噓。

它花費了 10.74 美元，呼叫了 178 次 API，代價是 GPT-5.5 普通版 1.04 美元、17 次呼叫的 10 倍。

結果，卻有 19 個測試失敗，是全場最差的表現。

Opus 4.7 的失敗原因，出乎意料地簡單：

Bug 1：顏色解析大小寫敏感。

程式碼使用了 strcmp() 而不是 strcasecmp()。這導致輸入「GREEN」「Red」「BLUE」全部被判定為無效。

僅僅一個函數呼叫的差異，就直接導致了 11 個測試失敗。

在 178 步的探索過程中，Opus 從未測試過大寫或混合大小寫的顏色輸入，它只試過小寫和一個無效顏色「purple」。

Bug 2：無效顏色的退出碼寫錯了。

原始程式遇到無效顏色時會返回 exit(0)，但 Opus 卻寫成了 exit(1)。

諷刺的是，Opus 在探索階段明明觀察到了原始程式的行為——./executable -C purple; echo "exit=$?" 輸出的結果是 exit=0。但在測試自己的實作時，卻沒有發現這個差異。

這導致了 8 個測試失敗。

不過，Opus 4.7 有一個亮點值得一提：它在處理缺失的 ncurses 標頭檔時，展現了驚人的系統工程能力。

其他三個模型發現 ncurses.h 缺失後，都直接改用 ANSI 跳脫序列。

Opus 4.7 卻花了大約 20 步深入調查，用 ldconfig -p 發現了執行階段的 .so 檔案，用 nm -D 檢查了導出的符號，然後手寫了一份 106 行的標頭檔宣告，直接連結動態函式庫。

這展現了真正的創意工程，但可惜並未帶來更好的成績。

還有 199 題未解

ProgramBench 的出現，標誌著程式開發基準進入了一個全新階段。

SWE-bench 的通過率已經內捲到 88.7%。在 GPQA 基準上，AI 的表現甚至超過了大多數的博士。

這些評估基準正以驚人的速度「融化」，分數越來越高，區分度卻越來越低。

而 ProgramBench，200 道題目中，至今只有 1 道被解出，總通過率：0.5%。

更重要的是，這次破紀錄的表現揭示了一項關鍵趨勢：「推理算力」正成為程式開發 AI 能力的核心變數。

GPT-5.5 在預設推理模式下表現平平，但高推理模式直接帶來了質的飛躍。

這意味著，不是模型不夠聰明，而是之前給它「思考」的時間不夠。

ProgramBench 的 200 道題目裡，還有 199 道在等待著被攻克。

從零到一，不只是起點

回顧 AI 發展史上的每一次「首破零」時刻——

AlphaGo 首次擊敗職業棋士、GPT-4 首次通過律師資格考試、o1 首次在數學奧賽題上拿下分數。

「從零到一」從來就不是線性進步的起點，而是指數成長的信號彈。

Noam Brown 提出的推理算力規模法則，在 ProgramBench 上獲得了迄今為止最直觀的驗證：

同一個 GPT-5.5 底座模型，medium 模式幾乎交白卷，high 模式滿分過關，xhigh 模式則是以斷層級的差距碾壓全場。

智慧不再是一個固定值，而是算力的函數。

這意味著什麼？意味著通往超級人工智慧（ASI）的路徑，或許不必等待下一代的架構革命。

只要推理算力能夠持續擴展，只要規模法則尚未碰壁。

今天能在 ProgramBench 上重建 cmatrix 的模型，明天就可能重建 SQLite，後天更可能重建整個 Linux 核心。

參考資料：

https://x.com/polynoamial/status/2054255862441812099 https://programbench.com/blog/gpt-5-5-first-solve/