剛剛,OpenAI 發布了一個新的編程模型,跑在一塊餐盤大小的晶片上,每秒能吐出超過 1000 個 token。
這個模型叫 GPT-5.3-Codex-Spark,是 GPT-5.3-Codex 的輕量版,專為即時編程設計。
來看對比影片:
而 Sam Altman 本人在發布前就發出了預告:"It sparks joy for me"。
而讓它跑這麼快,秘密並非 Nvidia 的 GPU,而是 Cerebras 的晶圓級晶片。
快
傳統的 AI 推理,是把模型分散到一堆 GPU 上跑,晶片之間需要頻繁通訊,通訊就是延遲。
而 Cerebras 的 Wafer Scale Engine 3(WSE-3)走了一條完全不同的路:把整個晶片做成一整塊晶圓。
而這塊晶片有多大呢?
大概一個餐盤那麼大。
並且,有4 兆個電晶體。
它擁有目前所有 AI 處理器中最大的片上記憶體,直接消除了多晶片之間的通訊開銷。模型就在一塊晶片上跑,不需要在晶片之間來回搬運資料。
結果就是:推理速度直接拉到每秒 1000+ token,比傳統 GPU 推理快了約 15 倍。
這對於編程場景而言就是,你打字的時刻,模型已經同步寫完了。
接近即時的回饋,程式碼就像是從指尖流出來的。
不只是快
Codex-Spark 不只是一個「跑得快的小模型」。
在 SWE-Bench Pro 和 Terminal-Bench 2.0 這兩個主流的軟體工程 Agent 基準測試上,Codex-Spark 的表現超過了 GPT-5.1-Codex-mini,而且完成任務的時間只有後者的零頭。
又快又強!
OpenAI 對它的定位是:這是一個日常編程的生產力工具,用來做快速原型、即時協作、即時迭代。
你可以在它寫程式碼的過程中隨時打斷、重新指揮方向,它幾乎是瞬間響應。
而更大、更強的 GPT-5.3-Codex 則負責處理那些需要深度推理和長時間執行的複雜任務。
OpenAI 的設想是,讓兩個模型互補配合:Spark 負責快,Codex 負責深。
OpenAI 晶片野心
這是 OpenAI 與 Cerebras 合作的第一個里程碑。
今年 1 月,OpenAI 宣布了與 Cerebras 的多年合作計畫,價值超過 100 億美元。
而 Cerebras 也剛完成了超過 10 億美元的融資,估值約 230 億美元,正在考慮 IPO。
這次合作的意義,不只是一個新模型。
這是 OpenAI 在推理層面首次大規模跳出輝達生態。
過去,幾乎所有大模型公司的推理都跑在 Nvidia GPU 上,而 Codex-Spark 證明了一件事:對於特定場景(比如編程),專用晶片可以把體驗拉到一個完全不同的量級。
Cerebras CTO 兼聯合創始人 Sean Lie 說:
最讓我們興奮的,是與 OpenAI 和開發者社群一起探索快速推理能帶來什麼——新的互動模式、新的使用場景、根本不同的模型體驗。這個預覽版只是個開始。
Cerebras 表示,2026 年內會把這種超快推理能力擴展到最大的前沿模型上。
如何使用
目前 GPT-5.3-Codex-Spark 以 research preview 形式發布,面向 ChatGPT Pro 用戶開放,可以在以下管道使用:
Codex 應用
CLI 命令行工具
VS Code 外掛程式
Sam Altman 坦言,發布時還有一些限制,但團隊會「rapidly improve」。
相關連結:
OpenAI 官方部落格:https://openai.com/index/introducing-gpt-5-3-codex-spark/
Cerebras 部落格:https://www.cerebras.ai/blog/openai-codexspark
GPT-5.3-Codex 介紹:https://openai.com/index/introducing-gpt-5-3-codex/