夢晨 發自 凹非寺
量子位 | 公众号 QbitAI
GPT-5.5,剛剛降臨。
官方定位,「一種面向實際工作和智能體的新型智能」。
這次奧特曼沒有自己站出來說「初體驗被嚇到眩暈癱坐,那一刻就像看到原子彈爆炸」了,而是請了一群嘴替(早期測試用戶)。
其中有一位 NVIDIA 工程師,他在早期測試結束後短暫的失去了 GPT-5.5 的訪問權限,然後說了這樣一句話:
失去 GPT-5.5,就像被截肢。
說歸說,鬧歸鬧。
OpenAI 與 NVIDIA 這次的合作是前所未有的。
第一,GPT-5.5 和 NVIDIA GB200、GB300 NVL72 系統是聯合設計的,訓練到部署,模型和硬體之間從誕生開始就雙向奔赴。
第二,推廣 Codex 到 NVIDIA 全公司,奧特曼還曬出了與老黃的郵件。
合作的成果,先來看數據。
與上個版本 GPT-5.4 相比,新模型在程式碼、知識工作、科學研究三個領域全部拉開身位。
綜合測試 Artificial Analysis Intelligence Index 結果,有兩種解讀方式:
GPT-5.5 獲得相同的分數比 Claude Opus 4.7 和其他模型消耗 token 更少。
或者消耗同樣的 token,GPT-5.5 完成的任務更多。
但最讓人意外的不是跑分。
過去每一次模型升級,「更強」和「更慢」幾乎是打包出售的。
這是 Scaling Law 的代價,更大的模型,更多的參數,更長的思考時間。用戶為智能買單的同時也在為延遲買單。
GPT-5.5 打破了這條鐵律。
在真實生產環境中,它的逐 token 延遲和 GPT-5.4 相當,完成相同任務需要的 token 還比 GPT-5.4 少了。
效率更高,功能更強大。
(但價格翻倍)
截至發稿,Codex 更新最新版已經能用上 GPT-5.5。
上下文視窗也升級到 400K
給程式設計開外掛
程式設計是 GPT-5.5 提升最猛的領域。
上一代模型用起來,還是得小心翼翼地拆任務,一步步看著它走,隨時準備糾偏。
GPT-5.5 不一樣了。你把需求丟過去,它自己拆解、自己執行、自己檢查。你只需要看結果。
OpenAI 展示了 Codex 下 GPT-5.5 生成的 3D 動作遊戲,在網頁上直接運行。
包括用 TypeScript/Three.js 實現戰鬥系統、敵人遭遇、HUD 反饋以及 GPT 生成的環境紋理。
Terminal-Bench 2.0,衡量複雜命令行工作流的硬核測試,GPT-5.5 拿到 82.7%。
上一個版本的 GPT-5.4 是 75.1%,目前最強競品 Claude Opus 4.7 是 69.4%。
可以理解為:碰到這種級別的難題,上一代模型將近三分之一會卡住,現在這個比例壓到了四分之一以下。
接下來請各路嘴替:
早期測試者 Dan Shipper 做了一個實驗。他是新創公司 CEO,同時也是一位活躍的 AI 產品開發者。
他的 App 上線後出了一個 bug,請了一位頂尖工程師來重構。工程師花了一番功夫,最終給出了一個解決方案。
然後 Shipper 把時鐘撥回去:把那段有 bug 的程式碼丟給模型,看它能不能獨立做出和那位工程師一樣的決策。
GPT-5.4 做不到。GPT-5.5 做到了。
Shipper 說,这是他第一次在一個程式設計模型身上感受到真正的「概念清晰度」。
不是接話,是理解了問題之後自己想明白如何解決。
越來越多高級工程師在反饋同一件事:GPT-5.5 在推理和自主性上明顯強於 GPT-5.4 和 Claude Opus 4.7。
它能夠提前發現問題,並在無需明確提示的情況下預測測試和審查需求。
程式設計只是開始。同樣的能力躍遷,正在向知識工作和科學研究兩個方向擴散。
程式設計之外
GPT-5.5 在 Codex 裡乾的事,遠不止寫程式。生成文件、整理表格、做簡報。
OpenAI 多次強調,它比上一代更懂你想要什麼。
更關鍵的是,它會自己用工具、自己檢查輸出對不對。你給一個模糊的想法,它能幫你補完剩下的。
這裡有個數據很有意思,OpenAI 自己超過 85% 的員工,每週都在用 Codex 幹活。(另外 15% 是怎麼回事?)
還是先看評測結果。
在知識工作基準測試 GDPval 上,GPT-5.5 拿到 84.9%,比 Claude Opus 4.7 高出 4.6 個百分點。
FrontierMath Tier 4,目前最難的數學基準之一,題目來自未發表的論文和頂尖研究者的開放問題。
GPT-5.5 Pro 在這個測試上拿下了 39.6%。Claude Opus 4.7 是 22.9%,差距接近一倍了。
真正有意思的是科學家們怎麼用它。
Bartosz Naskręcki 是波蘭亞當・密茨凱維奇大學的數學助理教授。他給 Codex 寫了一句話,11 分鐘後,一個代數幾何可視化應用就跑起來了。
這個應用能畫出兩個二次曲面的交線,標成紅色,還能用 Riemann-Roch 定理把交線轉成 Weierstrass 曲線的標準形式。後來他又擴展了更穩定的奇點可視化功能。
一句話,11 分鐘。擱以前,光是搭專案框架就得半天。
Derya Unutmaz 是傑克遜基因組醫學實驗室的免疫學教授。他用 GPT-5.5 Pro 分析了一份基因表達數據集:62 個樣本,將近 28000 個基因。最後產出了一份完整的研究報告。
他說,這本來要花團隊幾個月的時間。
OpenAI 對 GPT-5.5 在科研中的定位,有一句話概括得很準,它不再像一次性答案引擎,更像一個」研究夥伴」。
早期測試者拿它做的不只是查資料。多輪批改論文,逐條挑論證的漏洞,提出新的分析方案。它記住了你整個研究脈絡,每一輪對話都建立在前一輪的基礎上。
GPT-5.5 在數學領域做了一件大事。
Ramsey 數,組合數學裡最核心的問題之一。
通俗地說,它研究的是:一個網絡要多大到什麼程度,才能保證某種秩序必然出現?
比如,六個人裡一定有三個人互相認識,或者三個人互相不認識,這是最簡單的 Ramsey 定理。
它是數學界幾十年的硬骨頭,off-diagonal Ramsey 數的漸近性質,更是長期懸而未決。
GPT-5.5 找到了一個新的證明路徑。不是複述已知方法,而是發現了一條新路。隨後,這個證明被數學界最嚴格的形式化驗證工具之一 Lean 確認無誤。
一個 AI,在純數學的核心領域,做出了被形式化工具驗證的原創貢獻。
一年前,這還不可想像。
更強卻不更慢的祕密
「更強卻更快」是怎麼做到的?
答案不是在某一個環節上做了優化。OpenAI 把整個推理系統推倒重來了。
前面提到 GPT-5.5 和 NVIDIA GB200、GB300 NVL72 系統是聯合設計的,結果在同等延遲下,智能水平大幅躍升。
但還有另一個故事。
GPT-5.5 驅動的 Codex 系統,分析了數週的生產流量數據,然後寫出了一個負載均衡的分區啟發式算法。
之前,請求被切分成固定數量的塊,分發給加速器處理。但固定的分塊策略在不同流量模式下並不總是最優。有時候塊分得太粗,有時候太細,資源利用率忽高忽低。
Codex 看了幾週的真實流量數據,自己寫了一套自適應的分區算法。根據實際流量形態動態調整分塊策略。
token 生成速度提升了超過 20%。
模型優化了運行自己的基礎設施,AI 在讓自己跑得更快。
推理系統的整體重構,加上模型參與自身的優化,兩件事疊在一起,帶來了這樣的結果。
OpenAI 說,這是「邁向用電腦完成工作的新方式的一步」。
但當模型已經開始優化自己運行的基礎設施——
這一步,到底邁了多遠?
One More Thing
有了 GPT-5.5,OpenAI 預計接下來模型發布數據將加快。
我們看到短期內有相當顯著的進步,中期有極其顯著的進步。
我認為過去幾年進展出乎意料地緩慢。
說這話的是首席科學家 Jakub Pachocki,場合是與記者的電話會議上。
參考連結:https://openai.com/index/introducing-gpt-5-5/
https://x.com/firstadopter/status/2047378435555651856?s=20
— 完 —