跳出輝達生態：OpenAI 發布新編程模型 GPT-5.3-Codex-Spark，速度達 1000 token每秒

剛剛，OpenAI 發布了一個新的編程模型，跑在一塊餐盤大小的晶片上，每秒能吐出超過 1000 個 token。

這個模型叫 GPT-5.3-Codex-Spark，是 GPT-5.3-Codex 的輕量版，專為即時編程設計。

來看對比影片：

若影片無法播放，請改看來源頁。

而 Sam Altman 本人在發布前就發出了預告："It sparks joy for me"。

而讓它跑這麼快，秘密並非 Nvidia 的 GPU，而是 Cerebras 的晶圓級晶片。

快

傳統的 AI 推理，是把模型分散到一堆 GPU 上跑，晶片之間需要頻繁通訊，通訊就是延遲。

而 Cerebras 的 Wafer Scale Engine 3（WSE-3）走了一條完全不同的路：把整個晶片做成一整塊晶圓。

而這塊晶片有多大呢？

大概一個餐盤那麼大。

並且，有4 兆個電晶體。

它擁有目前所有 AI 處理器中最大的片上記憶體，直接消除了多晶片之間的通訊開銷。模型就在一塊晶片上跑，不需要在晶片之間來回搬運資料。

結果就是：推理速度直接拉到每秒 1000+ token，比傳統 GPU 推理快了約 15 倍。

這對於編程場景而言就是，你打字的時刻，模型已經同步寫完了。

接近即時的回饋，程式碼就像是從指尖流出來的。

Codex-Spark 不只是一個「跑得快的小模型」。

在 SWE-Bench Pro 和 Terminal-Bench 2.0 這兩個主流的軟體工程 Agent 基準測試上，Codex-Spark 的表現超過了 GPT-5.1-Codex-mini，而且完成任務的時間只有後者的零頭。

又快又強！

OpenAI 對它的定位是：這是一個日常編程的生產力工具，用來做快速原型、即時協作、即時迭代。

你可以在它寫程式碼的過程中隨時打斷、重新指揮方向，它幾乎是瞬間響應。

而更大、更強的 GPT-5.3-Codex 則負責處理那些需要深度推理和長時間執行的複雜任務。

OpenAI 的設想是，讓兩個模型互補配合：Spark 負責快，Codex 負責深。

這是 OpenAI 與 Cerebras 合作的第一個里程碑。

今年 1 月，OpenAI 宣布了與 Cerebras 的多年合作計畫，價值超過 100 億美元。

而 Cerebras 也剛完成了超過 10 億美元的融資，估值約 230 億美元，正在考慮 IPO。

這次合作的意義，不只是一個新模型。

這是 OpenAI 在推理層面首次大規模跳出輝達生態。

過去，幾乎所有大模型公司的推理都跑在 Nvidia GPU 上，而 Codex-Spark 證明了一件事：對於特定場景（比如編程），專用晶片可以把體驗拉到一個完全不同的量級。

Cerebras CTO 兼聯合創始人 Sean Lie 說：

最讓我們興奮的，是與 OpenAI 和開發者社群一起探索快速推理能帶來什麼——新的互動模式、新的使用場景、根本不同的模型體驗。這個預覽版只是個開始。

Cerebras 表示，2026 年內會把這種超快推理能力擴展到最大的前沿模型上。

目前 GPT-5.3-Codex-Spark 以 research preview 形式發布，面向 ChatGPT Pro 用戶開放，可以在以下管道使用：

Sam Altman 坦言，發布時還有一些限制，但團隊會「rapidly improve」。

相關連結：