春節が近づく前に、海外の大型言語モデルが激しい発表競争を繰り広げています。
北京時間2月6日未明、AnthropicとOpenAIが相次いで新しいバージョンの基礎大規模モデルを発表しました。それぞれClaude Opus 4.6とGPT-5.3-Codexです。
昨日はAI内の広告を巡って論争していた両社ですが、今日の大型モデル発表でまたぶつかりました。さっそく、彼らのモデル能力を見てみましょう。
Claude Opus 4.6
Claude Opus 4.6はAnthropicの旗艦AIモデルの大幅なアップグレードです。この世代のモデルでは、計画がより慎重になり、より長時間の自律的なワークフローを維持できるようになり、主要な企業ベンチマークではGPT-5.2を含む競合他社を上回っています。
新しいモデルは初めて100万トークンのコンコンテキストウィンドウを備え、AIが以前のバージョンよりもはるかに多くの情報を処理・推論できるようになりました。Anthropicはまた、Claude CodeにKimi K2.5に似た「エージェントチーム」機能を導入しました。これは研究プレビュー機能で、複数のAIエージェントがコーディングプロジェクトの異なる側面を同時に処理し、自律的に調整できるようにします。
Anthropicは、Opus 4.6の強化された機能を財務分析の実行、研究、ドキュメント、スプレッドシート、プレゼンテーションの作成と使用など、一連の日常業務に適用できると強調しています。現在、Cowork環境では、Claudeが自律的に複数のタスクを実行し、Opus 4.6が人間を代行してこれらのスキルをすべて活用できます。
Opus 4.6は複数の評価で優れた成績を収めています。例えば、エージェントコーディング評価ツールTerminal-Bench 2.0で最高得点を取得し、「Humanity's Last Exam」(複雑な多分野推論テスト)では他のすべての最先端モデルをリードしています。GDPval-AA(金融、法的、その他の分野における経済的価値のある知識作業タスクでのモデルのパフォーマンスを評価するテスト)では、Opus 4.6は業界で次に優れたモデル(OpenAIのGPT-5.2)より約144エロ得点高く、前身(Claude Opus 4.5)より190得点高かったです。さらに、Opus 4.6はBrowseCompテストでも他のすべてのモデルを上回りました。このテストは、モデルがオンラインで見つけにくい情報を検索する能力を測定します。
Claude Opus 4.6は現在、claude.ai、API、およびすべての主要クラウドプラットフォームで利用可能で、価格は据え置きで、100万トークンあたり5米ドル/25米ドルです。
現在の大型モデルの一般的な問題は「コンコンテキスト腐敗」で、対話トークン数が一定の閾値を超えるとモデルのパフォーマンスが低下します。Opus 4.6のパフォーマンスは前代製品より大幅に優れており、MRCR v2の8針1Mバリアントテスト(大海針のようなテスト)では、Opus 4.6の得点は76%で、Sonnet 4.5の得点はわずか18.5%でした。これは、最適なパフォーマンスを維持しながら利用できるコンテキスト情報量が質的に飛躍したことを示しています。
Opus 4.6の強力なエージェント能力を証明するために、Anthropicの研究者は16のエージェントを使用して、RustベースのC言語コンコンパイラをゼロから構築しました。タスクを設定した後はほとんど手を放しました。最終的にAIが出力したコードは10万行に及び、Linuxカーネルをコンコンパイル可能で、費用は2万米ドル以上、Claude Codeセッションは2000回以上、期間は2週間かかりました。
このコンコンパイラはx86、ARM、RISC-V上で起動可能なLinux 6.9を構築でき、GCCの99%のストレステストを通過し、FFmpeg、Redis、PostgreSQL、QEMUをコンコンパイルでき、開発者の最終試験も通過しました:Doomゲームをコンコンパイルして実行しました。
このコンパイラのコード:https://github.com/anthropics/claudes-c-compiler
人間がコードを書くことはありませんでしたが、研究者はテストを不断に再設計し、エージェントプログラムが干渉し合うときにCIパイプラインを構築し、すべての16のエージェントプログラムが同じバグに詰まったときに回避策を作成しました。
将来、AIが加わるワークフローでは、人間の役割はコードを書くことから、AIがコードを書ける環境を構築することに変わったようです。
GPT-5.3-Codex
OpenAI側では、次世代モデルGPT-5.3-Codexの発表が続きました。Altman氏は、これが現時点で最高のコーディング性能を持ち、Codexの可能性をさらに解き放つと称賛しました。
GPT-5.3-Codexは複数のベンチマークで記録を更新しました:SWE-Bench Proで56.8%、Terminal-Bench 2.0で77.3%を達成し、以前のバージョンより高速で、消費トークンも少ないです。
OpenAIは、このモデルはGPT-5.2-Codexの最先端コーディング性能とGPT-5.2の推論・専門知識能力を融合させ、速度が25%向上したと述べています。これにより、研究、ツール使用、複雑な実行を必要とする長時間のタスクに対応できるようになりました。
これは真の同僚のように機能し、GPT-5.3-Codexが作業中でも指導や対話を続け、コンコンテキスト情報を失うことがありません。GPT-5.3-Codexにより、Codexはコードの作成とレビューができる代理から、開発者や専門家がコンコンピュータ上で行うほぼすべての操作を実行できる代理へと進化しました。
強力なコーディング能力に加えて、GPT-5.2-CodexはOpenAIが長く注目している美学面でもまた大きな進歩を遂げました。
この発表で、OpenAIはGPT-5.3-Codexに2つのゲームを構築させました:Codexアプリケーション発売時にリリースされたレーシングゲームの第2版と、ダイビングゲームです。
OpenAIは、GPT-5.3-Codexがそのウェブゲーム開発スキルと事前設定された一般的な後続プロンプト(例えば「バグを修正する」や「ゲームを改善する」)を利用して、数百万トークンを自律的に反復開発したと述べています。
この発表されたGPT-5.3-Codexに対して、OpenAIの期待は単なるインテリジェントなコーディングモデルにとどまらず、「コーディングを超えて」仕事のアシスタントとなるインテリジェントエージェントです。
GPT-5.3-Codexはソフトウェアライフサイクル内のすべての作業をサポートできます——デバッグ、デプロイ、監視、製品要件ドキュメントの作成、文章の編集、ユーザー調査、テスト、指標分析など。
GPT-5.3-Codexの出力された純資産分析表示例
OpenAIは、モデル能力が不断增强するにつれて、差は単にエージェントが何をできるかではなく、人間がどのように簡単に複数の並列作業エージェントと対話し、指導し、監督できるかにあると考えています。この点を踏まえ、Codexアプリケーションはエージェントの管理と指導をより便利にし、GPT-5.3-Codexの追加によりその対話性がさらに強くなりました。
新しいモデルにより、Codexは頻繁に更新され、重要な決定と進展を常に把握できます。最終出力を待つことなく、リアルタイムで対話できます——質問を投げかけ、方法を議論し、解決策を共同で探求します。GPT-5.3-Codexはその実行プロセスを音声でブロードキャストし、フィードバックに応答し、あなたに最初から最後までプロセス全体を掌握させます。
最後に、OpenAIは、GPT-5.3-CodexのトレーニングとデプロイにはCodexが使用され、OpenAIの多くの研究者とエンジニアは、2ヶ月前と比べて彼らの仕事が根本的に変化したと述べています。
例えば、研究チームはCodexを使用してこのバージョンのトレーニング実行を監視し、デバッグしました。インフラストラクチャの問題のデバッグを加速しただけでなく、トレーニング全体のパターンを追跡し、対話品質を深く分析し、修正案を提案し、研究者が以前のモデルとモデル行動の違いを正確に理解できるように豊富なアプリケーションを構築しました。
エンジニアリングチームはCodexを使用してGPT-5.3-Codexフレームワークを最適化し、適応させました。ユーザーに影響を与える異常な極端な状況が発生したとき、チームメンバーはCodexを使用してコンコンテキストレンダリングエラーを特定し、キャッシュヒット率が低い根本原因を特定しました。発表全体を通じて、GPT-5.3-CodexはGPUクラスタを動的に拡張してトラフィックのピークに対応し、遅延を安定させ、チームを継続的にサポートしました。
アルファテスト期間中、1人の研究者は、GPT-5.3-Codexが1ラウンドでどれだけの追加作業を完了できるか、およびそれによる生産性向上を知りたがりました。GPT-5.3-Codexは、ユーザーの明確化リクエストの頻度、肯定的・否定的フィードバック、タスク進行を推定するための単純な正規表現分類器をいくつか生成し、これらの分類器をすべてのセッションログに拡張適用し、結論を含むレポートを生成しました。
GPT-5.3-CodexはChatGPTの有料プランに含まれていますが、APIはまだしばらく待つ必要があります。
OpenAIは、インフラストラクチャと推論スタックの改善により、CodexユーザーがGPT-5.3-Codexを実行する速度も25%向上したと報告しています。これにより、より迅速な対話とより迅速な結果が実現されます。
結び
海外の大型モデルは次々と登場し、春節前の最後の数日間、国内の大型モデルも必然的に熾烈な競争を繰り広げるでしょう。DeepSeek v4もおそらく間もなく到来するかもしれません。
楽しみにしていますか?
参考内容:
https://www.anthropic.com/news/claude-opus-4-6