GPT-5.5 正式發表!更強、更快、更昂貴,NVIDIA 工程師內測感言:失去它如同截肢

夢晨 發自 凹非寺
量子位 | 公众号 QbitAI

GPT-5.5,剛剛降臨。

官方定位,「一種面向實際工作和智能體的新型智能」。

若影片無法播放,請改看 來源頁

這次奧特曼沒有自己站出來說「初體驗被嚇到眩暈癱坐,那一刻就像看到原子彈爆炸」了,而是請了一群嘴替(早期測試用戶)。

其中有一位 NVIDIA 工程師,他在早期測試結束後短暫的失去了 GPT-5.5 的訪問權限,然後說了這樣一句話:

NVIDIA 工程師感言截圖

失去 GPT-5.5,就像被截肢。

說歸說,鬧歸鬧。

OpenAI 與 NVIDIA 這次的合作是前所未有的。

第一,GPT-5.5 和 NVIDIA GB200、GB300 NVL72 系統是聯合設計的,訓練到部署,模型和硬體之間從誕生開始就雙向奔赴。

第二,推廣 Codex 到 NVIDIA 全公司,奧特曼還曬出了與老黃的郵件。

奧特曼與黃仁勳郵件往來截圖

合作的成果,先來看數據。

與上個版本 GPT-5.4 相比,新模型在程式碼、知識工作、科學研究三個領域全部拉開身位。

GPT-5.5 與前代及各模型於各領域表現比較圖

綜合測試 Artificial Analysis Intelligence Index 結果,有兩種解讀方式:

GPT-5.5 獲得相同的分數比 Claude Opus 4.7 和其他模型消耗 token 更少。

或者消耗同樣的 token,GPT-5.5 完成的任務更多。

Artificial Analysis Intelligence Index 效能與 token 消耗比較圖

但最讓人意外的不是跑分。

過去每一次模型升級,「更強」和「更慢」幾乎是打包出售的。

這是 Scaling Law 的代價,更大的模型,更多的參數,更長的思考時間。用戶為智能買單的同時也在為延遲買單。

GPT-5.5 打破了這條鐵律。

在真實生產環境中,它的逐 token 延遲和 GPT-5.4 相當,完成相同任務需要的 token 還比 GPT-5.4 少了。

效率更高,功能更強大。

(但價格翻倍)

GPT-5.5 延遲與 token 使用量比較圖

截至發稿,Codex 更新最新版已經能用上 GPT-5.5。

Codex 介面更新支援 GPT-5.5 截圖

上下文視窗也升級到 400K

上下文視窗升級至 400K 截圖

給程式設計開外掛

程式設計是 GPT-5.5 提升最猛的領域。

上一代模型用起來,還是得小心翼翼地拆任務,一步步看著它走,隨時準備糾偏。

GPT-5.5 不一樣了。你把需求丟過去,它自己拆解、自己執行、自己檢查。你只需要看結果。

OpenAI 展示了 Codex 下 GPT-5.5 生成的 3D 動作遊戲,在網頁上直接運行。

包括用 TypeScript/Three.js 實現戰鬥系統、敵人遭遇、HUD 反饋以及 GPT 生成的環境紋理。

GPT-5.5 生成之 3D 動作遊戲 GIF 演示

Terminal-Bench 2.0,衡量複雜命令行工作流的硬核測試,GPT-5.5 拿到 82.7%。

上一個版本的 GPT-5.4 是 75.1%,目前最強競品 Claude Opus 4.7 是 69.4%。

可以理解為:碰到這種級別的難題,上一代模型將近三分之一會卡住,現在這個比例壓到了四分之一以下。

Terminal-Bench 2.0 測試結果比較圖

接下來請各路嘴替:

早期測試者 Dan Shipper 做了一個實驗。他是新創公司 CEO,同時也是一位活躍的 AI 產品開發者。

他的 App 上線後出了一個 bug,請了一位頂尖工程師來重構。工程師花了一番功夫,最終給出了一個解決方案。

然後 Shipper 把時鐘撥回去:把那段有 bug 的程式碼丟給模型,看它能不能獨立做出和那位工程師一樣的決策。

GPT-5.4 做不到。GPT-5.5 做到了。

Shipper 說,这是他第一次在一個程式設計模型身上感受到真正的「概念清晰度」。

不是接話,是理解了問題之後自己想明白如何解決。

Dan Shipper 實驗結果截圖

越來越多高級工程師在反饋同一件事:GPT-5.5 在推理和自主性上明顯強於 GPT-5.4 和 Claude Opus 4.7。

它能夠提前發現問題,並在無需明確提示的情況下預測測試和審查需求。

工程師反饋 GPT-5.5 自主性截圖

程式設計只是開始。同樣的能力躍遷,正在向知識工作和科學研究兩個方向擴散。

程式設計之外

GPT-5.5 在 Codex 裡乾的事,遠不止寫程式。生成文件、整理表格、做簡報。

OpenAI 多次強調,它比上一代更懂你想要什麼。

更關鍵的是,它會自己用工具、自己檢查輸出對不對。你給一個模糊的想法,它能幫你補完剩下的。

這裡有個數據很有意思,OpenAI 自己超過 85% 的員工,每週都在用 Codex 幹活。(另外 15% 是怎麼回事?)

還是先看評測結果。

在知識工作基準測試 GDPval 上,GPT-5.5 拿到 84.9%,比 Claude Opus 4.7 高出 4.6 個百分點。

GDPval 知識工作基準測試結果圖

FrontierMath Tier 4,目前最難的數學基準之一,題目來自未發表的論文和頂尖研究者的開放問題。

GPT-5.5 Pro 在這個測試上拿下了 39.6%。Claude Opus 4.7 是 22.9%,差距接近一倍了。

FrontierMath Tier 4 數學基準測試結果圖

真正有意思的是科學家們怎麼用它。

Bartosz Naskręcki 是波蘭亞當・密茨凱維奇大學的數學助理教授。他給 Codex 寫了一句話,11 分鐘後,一個代數幾何可視化應用就跑起來了。

這個應用能畫出兩個二次曲面的交線,標成紅色,還能用 Riemann-Roch 定理把交線轉成 Weierstrass 曲線的標準形式。後來他又擴展了更穩定的奇點可視化功能。

一句話,11 分鐘。擱以前,光是搭專案框架就得半天。

代數幾何可視化應用截圖

Derya Unutmaz 是傑克遜基因組醫學實驗室的免疫學教授。他用 GPT-5.5 Pro 分析了一份基因表達數據集:62 個樣本,將近 28000 個基因。最後產出了一份完整的研究報告。

他說,這本來要花團隊幾個月的時間。

OpenAI 對 GPT-5.5 在科研中的定位,有一句話概括得很準,它不再像一次性答案引擎,更像一個」研究夥伴」。

早期測試者拿它做的不只是查資料。多輪批改論文,逐條挑論證的漏洞,提出新的分析方案。它記住了你整個研究脈絡,每一輪對話都建立在前一輪的基礎上。

GPT-5.5 在數學領域做了一件大事。

Ramsey 數,組合數學裡最核心的問題之一。

通俗地說,它研究的是:一個網絡要多大到什麼程度,才能保證某種秩序必然出現?

比如,六個人裡一定有三個人互相認識,或者三個人互相不認識,這是最簡單的 Ramsey 定理。

它是數學界幾十年的硬骨頭,off-diagonal Ramsey 數的漸近性質,更是長期懸而未決。

GPT-5.5 找到了一個新的證明路徑。不是複述已知方法,而是發現了一條新路。隨後,這個證明被數學界最嚴格的形式化驗證工具之一 Lean 確認無誤。

Ramsey 數證明路徑示意圖

一個 AI,在純數學的核心領域,做出了被形式化工具驗證的原創貢獻。

一年前,這還不可想像。

更強卻不更慢的祕密

「更強卻更快」是怎麼做到的?

答案不是在某一個環節上做了優化。OpenAI 把整個推理系統推倒重來了。

前面提到 GPT-5.5 和 NVIDIA GB200、GB300 NVL72 系統是聯合設計的,結果在同等延遲下,智能水平大幅躍升。

GPT-5.5 與 NVIDIA 硬體協同設計架構圖

但還有另一個故事。

GPT-5.5 驅動的 Codex 系統,分析了數週的生產流量數據,然後寫出了一個負載均衡的分區啟發式算法。

之前,請求被切分成固定數量的塊,分發給加速器處理。但固定的分塊策略在不同流量模式下並不總是最優。有時候塊分得太粗,有時候太細,資源利用率忽高忽低。

Codex 看了幾週的真實流量數據,自己寫了一套自適應的分區算法。根據實際流量形態動態調整分塊策略。

token 生成速度提升了超過 20%。

模型優化了運行自己的基礎設施,AI 在讓自己跑得更快。

推理系統的整體重構,加上模型參與自身的優化,兩件事疊在一起,帶來了這樣的結果。

Codex 自適應分區算法效能提升圖

OpenAI 說,這是「邁向用電腦完成工作的新方式的一步」。

但當模型已經開始優化自己運行的基礎設施——

這一步,到底邁了多遠?

One More Thing

有了 GPT-5.5,OpenAI 預計接下來模型發布數據將加快。

我們看到短期內有相當顯著的進步,中期有極其顯著的進步。

我認為過去幾年進展出乎意料地緩慢。

說這話的是首席科學家 Jakub Pachocki,場合是與記者的電話會議上。

參考連結:https://openai.com/index/introducing-gpt-5-5/
https://x.com/firstadopter/status/2047378435555651856?s=20

— 完 —

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.