GPT-5.5 正式發表！更強、更快、更昂貴，NVIDIA 工程師內測感言：失去它如同截肢

夢晨發自凹非寺
量子位 | 公众号 QbitAI

GPT-5.5，剛剛降臨。

官方定位，「一種面向實際工作和智能體的新型智能」。

若影片無法播放，請改看來源頁。

這次奧特曼沒有自己站出來說「初體驗被嚇到眩暈癱坐，那一刻就像看到原子彈爆炸」了，而是請了一群嘴替（早期測試用戶）。

其中有一位 NVIDIA 工程師，他在早期測試結束後短暫的失去了 GPT-5.5 的訪問權限，然後說了這樣一句話：

NVIDIA 工程師感言截圖

失去 GPT-5.5，就像被截肢。

說歸說，鬧歸鬧。

OpenAI 與 NVIDIA 這次的合作是前所未有的。

第一，GPT-5.5 和 NVIDIA GB200、GB300 NVL72 系統是聯合設計的，訓練到部署，模型和硬體之間從誕生開始就雙向奔赴。

第二，推廣 Codex 到 NVIDIA 全公司，奧特曼還曬出了與老黃的郵件。

奧特曼與黃仁勳郵件往來截圖

合作的成果，先來看數據。

與上個版本 GPT-5.4 相比，新模型在程式碼、知識工作、科學研究三個領域全部拉開身位。

GPT-5.5 與前代及各模型於各領域表現比較圖

綜合測試 Artificial Analysis Intelligence Index 結果，有兩種解讀方式：

GPT-5.5 獲得相同的分數比 Claude Opus 4.7 和其他模型消耗 token 更少。

或者消耗同樣的 token，GPT-5.5 完成的任務更多。

Artificial Analysis Intelligence Index 效能與 token 消耗比較圖

但最讓人意外的不是跑分。

過去每一次模型升級，「更強」和「更慢」幾乎是打包出售的。

這是 Scaling Law 的代價，更大的模型，更多的參數，更長的思考時間。用戶為智能買單的同時也在為延遲買單。

GPT-5.5 打破了這條鐵律。

在真實生產環境中，它的逐 token 延遲和 GPT-5.4 相當，完成相同任務需要的 token 還比 GPT-5.4 少了。

效率更高，功能更強大。

（但價格翻倍）

GPT-5.5 延遲與 token 使用量比較圖

截至發稿，Codex 更新最新版已經能用上 GPT-5.5。

Codex 介面更新支援 GPT-5.5 截圖

上下文視窗也升級到 400K

上下文視窗升級至 400K 截圖

給程式設計開外掛

程式設計是 GPT-5.5 提升最猛的領域。

上一代模型用起來，還是得小心翼翼地拆任務，一步步看著它走，隨時準備糾偏。

GPT-5.5 不一樣了。你把需求丟過去，它自己拆解、自己執行、自己檢查。你只需要看結果。

OpenAI 展示了 Codex 下 GPT-5.5 生成的 3D 動作遊戲，在網頁上直接運行。

包括用 TypeScript/Three.js 實現戰鬥系統、敵人遭遇、HUD 反饋以及 GPT 生成的環境紋理。

GPT-5.5 生成之 3D 動作遊戲 GIF 演示

Terminal-Bench 2.0，衡量複雜命令行工作流的硬核測試，GPT-5.5 拿到 82.7%。

上一個版本的 GPT-5.4 是 75.1%，目前最強競品 Claude Opus 4.7 是 69.4%。

可以理解為：碰到這種級別的難題，上一代模型將近三分之一會卡住，現在這個比例壓到了四分之一以下。

Terminal-Bench 2.0 測試結果比較圖

接下來請各路嘴替：

早期測試者 Dan Shipper 做了一個實驗。他是新創公司 CEO，同時也是一位活躍的 AI 產品開發者。

他的 App 上線後出了一個 bug，請了一位頂尖工程師來重構。工程師花了一番功夫，最終給出了一個解決方案。

然後 Shipper 把時鐘撥回去：把那段有 bug 的程式碼丟給模型，看它能不能獨立做出和那位工程師一樣的決策。

GPT-5.4 做不到。GPT-5.5 做到了。

Shipper 說，这是他第一次在一個程式設計模型身上感受到真正的「概念清晰度」。

不是接話，是理解了問題之後自己想明白如何解決。

Dan Shipper 實驗結果截圖

越來越多高級工程師在反饋同一件事：GPT-5.5 在推理和自主性上明顯強於 GPT-5.4 和 Claude Opus 4.7。

它能夠提前發現問題，並在無需明確提示的情況下預測測試和審查需求。

工程師反饋 GPT-5.5 自主性截圖

程式設計只是開始。同樣的能力躍遷，正在向知識工作和科學研究兩個方向擴散。

程式設計之外

GPT-5.5 在 Codex 裡乾的事，遠不止寫程式。生成文件、整理表格、做簡報。

OpenAI 多次強調，它比上一代更懂你想要什麼。

更關鍵的是，它會自己用工具、自己檢查輸出對不對。你給一個模糊的想法，它能幫你補完剩下的。

這裡有個數據很有意思，OpenAI 自己超過 85% 的員工，每週都在用 Codex 幹活。（另外 15% 是怎麼回事？）

還是先看評測結果。

在知識工作基準測試 GDPval 上，GPT-5.5 拿到 84.9%，比 Claude Opus 4.7 高出 4.6 個百分點。

GDPval 知識工作基準測試結果圖

FrontierMath Tier 4，目前最難的數學基準之一，題目來自未發表的論文和頂尖研究者的開放問題。

GPT-5.5 Pro 在這個測試上拿下了 39.6%。Claude Opus 4.7 是 22.9%，差距接近一倍了。

FrontierMath Tier 4 數學基準測試結果圖

真正有意思的是科學家們怎麼用它。

Bartosz Naskręcki 是波蘭亞當・密茨凱維奇大學的數學助理教授。他給 Codex 寫了一句話，11 分鐘後，一個代數幾何可視化應用就跑起來了。

這個應用能畫出兩個二次曲面的交線，標成紅色，還能用 Riemann-Roch 定理把交線轉成 Weierstrass 曲線的標準形式。後來他又擴展了更穩定的奇點可視化功能。

一句話，11 分鐘。擱以前，光是搭專案框架就得半天。

代數幾何可視化應用截圖

Derya Unutmaz 是傑克遜基因組醫學實驗室的免疫學教授。他用 GPT-5.5 Pro 分析了一份基因表達數據集：62 個樣本，將近 28000 個基因。最後產出了一份完整的研究報告。

他說，這本來要花團隊幾個月的時間。

OpenAI 對 GPT-5.5 在科研中的定位，有一句話概括得很準，它不再像一次性答案引擎，更像一個」研究夥伴」。

早期測試者拿它做的不只是查資料。多輪批改論文，逐條挑論證的漏洞，提出新的分析方案。它記住了你整個研究脈絡，每一輪對話都建立在前一輪的基礎上。

GPT-5.5 在數學領域做了一件大事。

Ramsey 數，組合數學裡最核心的問題之一。

通俗地說，它研究的是：一個網絡要多大到什麼程度，才能保證某種秩序必然出現？

比如，六個人裡一定有三個人互相認識，或者三個人互相不認識，這是最簡單的 Ramsey 定理。

它是數學界幾十年的硬骨頭，off-diagonal Ramsey 數的漸近性質，更是長期懸而未決。

GPT-5.5 找到了一個新的證明路徑。不是複述已知方法，而是發現了一條新路。隨後，這個證明被數學界最嚴格的形式化驗證工具之一 Lean 確認無誤。

Ramsey 數證明路徑示意圖

一個 AI，在純數學的核心領域，做出了被形式化工具驗證的原創貢獻。

一年前，這還不可想像。

更強卻不更慢的祕密

「更強卻更快」是怎麼做到的？

答案不是在某一個環節上做了優化。OpenAI 把整個推理系統推倒重來了。

前面提到 GPT-5.5 和 NVIDIA GB200、GB300 NVL72 系統是聯合設計的，結果在同等延遲下，智能水平大幅躍升。

GPT-5.5 與 NVIDIA 硬體協同設計架構圖

但還有另一個故事。

GPT-5.5 驅動的 Codex 系統，分析了數週的生產流量數據，然後寫出了一個負載均衡的分區啟發式算法。

之前，請求被切分成固定數量的塊，分發給加速器處理。但固定的分塊策略在不同流量模式下並不總是最優。有時候塊分得太粗，有時候太細，資源利用率忽高忽低。

Codex 看了幾週的真實流量數據，自己寫了一套自適應的分區算法。根據實際流量形態動態調整分塊策略。

token 生成速度提升了超過 20%。

模型優化了運行自己的基礎設施，AI 在讓自己跑得更快。

推理系統的整體重構，加上模型參與自身的優化，兩件事疊在一起，帶來了這樣的結果。

Codex 自適應分區算法效能提升圖

OpenAI 說，這是「邁向用電腦完成工作的新方式的一步」。

但當模型已經開始優化自己運行的基礎設施——

這一步，到底邁了多遠？

One More Thing

有了 GPT-5.5，OpenAI 預計接下來模型發布數據將加快。

我們看到短期內有相當顯著的進步，中期有極其顯著的進步。
我認為過去幾年進展出乎意料地緩慢。

說這話的是首席科學家 Jakub Pachocki，場合是與記者的電話會議上。

參考連結：https://openai.com/index/introducing-gpt-5-5/
https://x.com/firstadopter/status/2047378435555651856?s=20

— 完 —

GPT-5.5 正式發表！更強、更快、更昂貴，NVIDIA 工程師內測感言：失去它如同截肢

給程式設計開外掛

程式設計之外

更強卻不更慢的祕密

One More Thing

相關文章推薦

分享網址