NVIDIAのエコシステムから離れる：OpenAIが新しいプログラミングモデルGPT-5.3-Codex-Sparkを発表、速度は1000トークン/秒

さっき、OpenAIは新しいプログラミングモデルを発表しました。ディナープレートサイズのチップ上で動作し、1秒あたり1000以上のトークンを出力します。

このモデルはGPT-5.3-Codex-Sparkと呼ばれ、GPT-5.3-Codexの軽量版で、リアルタイムプログラミング専用に設計されています。

比較動画をご覧ください：

若影片無法播放，請改看來源頁。

そして、Sam Altman自身が発表前に予告しました：「It sparks joy for me」。

そして、これほど速く動作する秘密はNvidiaのGPUではなく、Cerebrasのウェーハスケールチップです。

速い

従来のAI推論は、モデルを複数のGPUに分散して実行し、チップ間で頻繁に通信する必要があり、通信がレイテンシになります。

CerebrasのWafer Scale Engine 3（WSE-3）は全く異なる道を歩みます：チップ全体を1枚のウェーハにします。

そして、このチップはどれくらい大きいのでしょうか？

ディナープレートほどです。

そして、4兆個のトランジスタを持ちます。

それは現在のすべてのAIプロセッサーの中で最大のオンチップメモリを持ち、複数チップ間の通信オーバーヘッドを直接排除します。モデルは単一のチップ上で実行され、チップ間でデータを往復搬送する必要はありません。

その結果：推論速度は直接1秒あたり1000以上のトークンに引き上げられ、従来のGPU推論より約15倍高速です。

これはプログラミングシナリオでは、あなたが打っている瞬間に、モデルがすでに同時にコードを書き終えていることを意味します。

ほぼリアルタイムのフィードバック、コードは指先から流れ出ます。

Codex-Sparkは単なる「速く動作する小さなモデル」ではありません。

主要なソフトウェアエンジニアリングエージェントベンチマークであるSWE-Bench ProとTerminal-Bench 2.0において、Codex-SparkのパフォーマンスはGPT-5.1-Codex-miniを上回り、タスク完了時間は後者のごく一部です。

速くて強力！

OpenAIはそれを次のように位置付けています：これは日常的なプログラミングの生産性ツールであり、迅速なプロトタイピング、リアルタイムコラボレーション、即時イテレーションに使用されます。

コードを書いている过程中、いつでも中断して方向を再指示でき、それはほぼ瞬時に反応します。

そして、より大きく、より強力なGPT-5.3-Codexは、深い推論と長時間の実行を必要とする複雑なタスクを処理します。

OpenAIの考え方は、2つのモデルを互いに補完し協力させることです：Sparkは速さを、Codexは深さを担当します。

これはOpenAIとCerebrasの協力の最初のマイルストーンです。

今年1月、OpenAIはCerebrasとの複数年協力計画を発表しました。価値は100億ドル以上です。

そしてCerebrasはちょうど10億ドル以上の資金調達を完了し、評価額は約230億ドルで、IPOを検討しています。

この協力の意義は、新しいモデルだけではありません。

これはOpenAIが推論レベルで初めて大規模にNVIDIAのエコシステムから離れるものです。

過去には、ほとんどすべての大規模モデル会社の推論はNvidia GPU上で実行されていましたが、Codex-Sparkは1つのことを証明しています：特定のシナリオ（例えばプログラミング）では、専用チップは体験を全く異なるレベルに引き上げることができます。

CerebrasのCTO兼共同創設者Sean Lieは言いました：

最も興奮するのは、OpenAIと開発者コミュニティと一緒に、高速推論が何をもたらすかを探求することです—新しいインタラクションモード、新しい使用シナリオ、根本的に異なるモデル体験。このプレビュー版は始まりに過ぎません。

Cerebrasは、2026年までにこの超高速推論能力を最大のフロンティアモデルに拡張すると述べています。

現在、GPT-5.3-Codex-Sparkは研究プレビュー形式でリリースされており、ChatGPT Proユーザーに開放されています。以下のチャネルで使用できます：

Sam Altmanは、リリース時まだいくつかの制限があると認めましたが、チームは「rapidly improve」すると述べました。