GPT-5.3-Codex 発表：初の自己訓練モデル

今日、またすごい発表があった……寝る暇もない！

過去1時間以内に、OpenAIがGPT-5.3-Codexを、AnthropicがOpus 4.6（100万コンコンテキスト）を発表しました。Claude Opus 4.6 発表、スコアはトップ、価格は据え置き。

二つの大型発表が、ほぼ同時に発表されました。

これらのモデルを基盤とするエージェントたちは、次に大きく飛躍するでしょう。

AnthropicがClaude Opus 4.6を発表したのと同じ日に、OpenAIが続いてGPT-5.3-Codexを発表しました。これは、これまでで最強のエージェント型コーディングモデルと称されています。

Sam Altman氏自身もすぐにツイートしました：

GPT-5.3-Codexが登場！
最強のコーディング性能（SWE-Bench Pro 57%、TerminalBench 2.0 76%、OSWorld 64%）。タスク実行中にリアルタイムで指示可能、作業中にリアルタイムで更新を提供。より速い！同じタスクのトークン消費量は5.2-Codexの半分以下で、各トークンの速度も25%以上速い！コンコンピュータ使用能力も非常に高い。

では、このGPT-5.3-Codexは一体どこが強いのでしょうか？詳しく見ていきましょう。

自分自身を訓練する

GPT-5.3-Codexには非常に「衝撃的」な特徴があります：自分自身の創造プロセスに参加した。

OpenAIチームは訓練过程中、初期バージョンのGPT-5.3-Codexを使って自分の訓練をデバッグし、自分のデプロイメントを管理し、テスト結果を診断し、評価を行いました。つまり、このモデルが自分自身を「産み出す」のを助けたのです。

OpenAIの研究チームはCodexを使って、この発表の訓練プロセスを監視・デバッグしました。

インフラストラクチャの問題を解決できるだけでなく、訓練过程のパターン変化を追跡し、対話品質を深く分析し、修正提案を行い、研究員のために可視化アプリケーションを構築して、モデル行動の差異を正確に理解するのを助けました。

エンジニアリングチームもCodexを使って、GPT-5.3-Codexの実行環境を最適化・適応させました。

ユーザーに影響を与える境界ケースが発生した場合、チームメンバーはCodexに直接contextレンダリングのバグの特定を依頼し、キャッシュヒット率が低い根本原因を調査しました。発表期間中、GPT-5.3-Codexはチームを助けて、トラフィックのピークに対応するためにGPUクラスターを動的に拡張・縮小し、遅延を安定させました。

あるデータサイエンティストはGPT-5.3-Codexを使って新しいデータパイプラインを構築し、標準のダッシュボードツールよりも豊富な可視化結果を作成し、Codexと協力して分析し、数千のデータポイントからわずか3分で重要な洞察を抽出しました。

全面的なスコアブレイク

GPT-5.3-Codexは複数のベンチマークテストで記録を更新しました：

SWE-Bench Proで56.8%を獲得。これは実世界のソフトウェアエンジニアリング能力を測る厳格な評価です。PythonのみをテストするSWE-Bench Verifiedとは異なり、SWE-Bench Proは4つのプログラミング言語をカバーし、データ汚染に強く、より産業現場に近いです。GPT-5.2-Codexは56.4%、GPT-5.2は55.6%でした。

Terminal-Bench 2.0で77.3%に達し、GPT-5.2-Codexの64.0%を大きく上回りました。このベンチマークテストは、コーディングエージェントに必要な端末操作能力を測定します。

OSWorld-Verifiedで64.7%を獲得。一方、GPT-5.2-Codexはわずか38.2%でした。OSWorldは、ビジュアルデスクトップ環境で生産性タスクを完了するエージェント型コンコンピュータ使用ベンチマークで、この向上幅は「断崖的なリード」と言えるでしょう。

GDPvalでは、70.9%の勝率または引き分け率でGPT-5.2と並びました。GDPvalはOpenAIが2025年に発表した評価で、44の職業における知識作業タスクでのモデルのパフォーマンスを測定します。プレゼンテーション作成、スプレッドシート処理などが含まれます。

サイバーセキュリティCTFチャレンジで77.6%に達し、GPT-5.2-Codexは67.4%でした。

SWE-lancer IC Diamondで81.4%を獲得し、GPT-5.2-Codexの76.0%を上回りました。

そして注目すべきは、GPT-5.3-Codexがこれらのタスクを完了するために消費するトークン量は、これまでのどのモデルよりも少ないことです。強く、省エネ。これこそが真の実力です。

コードを書くだけではない

GPT-5.3-Codexの位置付けは、単なるコード生成ツールではありません。

OpenAIは言います：コードを書くエージェントから、開発者や専門家がコンコンピュータ上で行うほぼすべてのことをできるエージェントへ。

ソフトウェアエンジニア、デザイナー、プロダクトマネージャー、データサイエンティストが行うことは、コードを書くだけではありません。

GPT-5.3-Codexは、ソフトウェアライフサイクル内のすべての作業をサポートするように設計されています：デバッグ、デプロイメント、監視、PRD作成、文章編集、ユーザー調査、テスト、指標分析など。そのエージェント能力はソフトウェア分野を超えており、スライド作成やスプレッドシート内のデータ分析も手伝います。

OpenAIは、最先端のコーディング能力、美学的な改善、圧縮能力を組み合わせ、数日でゼロから高度に機能化された複雑なゲームやアプリケーションを構築できるモデルを作成しました。

長時間実行されるエージェント能力をテストするために、彼らはGPT-5.3-Codexに2つのゲームの構築をさせました：レーシングゲームの第二版と潜水ゲームです。使用したのは単なる一般的な跟进プロンプトで、「バグを修正する」や「ゲームを改善する」というだけで、GPT-5.3-Codexは数百万トークンのインタラクションの中で自律的に反復しました。

ウェブ開発方面でも、GPT-5.3-Codexは前代よりも意図を理解しています。

単純または不十分な詳細なプロンプトは、デフォルトで機能がより完全で、デフォルト値がより合理的なウェブサイトを生成し、アイデアを実現するためのより強力な出発点を提供します。例えば、両世代のモデルにそれぞれランディングページを構築させる場合、GPT-5.3-Codexは自動的に年間プランを換算後の月額価格として表示し、割引をより直感的にし、さらに自動ループするユーザー評価コンポーネントを作成します。一条だけ置くのではなく。

開封即用の完成度が明らかに高まりました。

作業しながら対話する

モデルの能力が強まるにつれて、ボトルネックは「エージェントが何ができるか」から「人間が複数並行して作業するエージェントとどのように簡単にやり取りし、指示し、監視するか」に移っています。

GPT-5.3-Codexはこの点で重要な改善を行いました：対話型コラボレーション。

以前はCodexにタスクを指示し、最終結果を待つだけでした。今では違います。GPT-5.3-Codexは作業过程中、頻繁に更新を提供し、重要な意思決定と進捗をリアルタイムで知らせます。

いつでも質問し、方案を議論し、方向性を調整できます。コンコンテキストを失うことはありません。

何をしているかを伝え、フィードバックに応答し、最初から最後まであなたを参加させます。

機械に命令を下すのではなく、同僚と協力するのに近いです。

Codexアプリケーションでは、設定 > 一般 > Follow-up behavior でこの機能を有効にできます。

初の「高能力」セキュリティ評価

GPT-5.3-Codexは、OpenAIのPreparedness Frameworkの下で、サイバーセキュリティ関連タスクで「高能力」と評価された初のモデルであり、また、ソフトウェア脆弱性を識別するように直接訓練された初のモデルでもあります。

エンドツーエンドで自動化されたサイバー攻撃を実行できるという確かな証拠はありませんが、OpenAIは予防措置を講じ、これまでで最も包括的なサイバーセキュリティセキュリティスタックを展開しました。これには、セキュリティ訓練、自動監視、高度な能力の信頼できるアクセス、脅威インテリジェンスを含む実行パイプラインが含まれます。

サイバーセキュリティは本質的に二重用途であるため、OpenAIは「証拠に基づき、反復的に推進する」アプローチを採用し、防御者が脆弱性を発見・修正する能力を加速し、同時に悪用を遅らせます。

具体的な措置は以下の通りです：

Trusted Access for Cyberのパイロットプロジェクトを開始し、サイバー防御研究を加速します。
Aardvark（セキュリティ研究エージェント）のプライベートベータテストを拡大し、Codex Security製品スイートの最初の製品とします。
オープンソースメンテナと協力し、Next.jsなど広く使用されているプロジェクトに無料のコードリポジトリスキャンを提供。先週、セキュリティ研究員がCodexを使ってNext.jsの脆弱性を発見し、開示しました。

2023年に開始した100万ドルのサイバーセキュリティ助成計画に基づき、OpenAIはさらに1000万ドルのAPIクレジットを投入することを約束し、サイバー防御、特にオープンソースソフトウェアと重要インインフラシステムの加速を図ります。

利用可能性

GPT-5.3-Codexは、現在すべてのChatGPT有料ユーザーに開放されています。Codexが利用可能なすべてのプラットフォームをカバー：アプリケーション、CLI、IDE拡張機能、ウェブサイト。APIアクセスは安全に進行中です。

速度面では、GPT-5.2-Codexより25%速く、トークン消費量は前代の半分以下です。

GPT-5.3-Codexは、NVIDIA GB200 NVL72システムと協調設計・訓練・展開されています。

方向性が変わる

OpenAIは記事の最後で言いました：

GPT-5.3-Codexは、Codexを「コードを書く」から「コードをツールとして使用してコンコンピュータを操作し、エンドツーエンドで作業を完了する」へと導きます。

最初は最高のコーディングエージェントになることに焦点を当てていましたが、現在はより一般的なコンピュータ協力者へと進化し、誰が構築できるか、Codexで何ができるかの境界を拡張しました。

同じ日に、AnthropicがOpus 4.6を、OpenAIがGPT-5.3-Codexを発表しました。両社のエージェント型コーディングというレースでの軍拡競争は、白熱化しています。

cliでもすでに利用可能です：

そして方向性もますます明確になっています：モデルにコードを書かせるのではなく、モデルにコードを使ってすべてを解決させるのです。

そしてもう一つ注目すべき点は：GPT 5.3 Codexが今日正式発表され、数時間前に同時に発表されたのが、AIエージェントプラットフォームFrontierです。

この発表周期の短縮は何を意味するのでしょうか？

OpenAIは過去6ヶ月で5つの主要なバージョン/更新を発表しましたが、それ以前の15ヶ月間では合計でわずか7つのバージョンしか発表していません。

ますます複雑なモデルに対して、OpenAI自身の発表によれば、#AI生成のコードで構築されることが増えています。これは、真の機能コード開発の改善による速度向上なのか、それとも競争圧力下でのより多くの品質保証による加速なのか。

今回のGPT-5.3-Codexは、自分自身の訓練プロセスにも参加していたのです……

面白いですね。