Claude Opus 4.6 レビュー

短い結論：偏った得意分野を持つ学生がついに万能選手に

基本状況：

Anthropicはタスクに対して独自の理解を持っており、2.0時代からオフィスワーカー向けのクリエイティブライティング、データ分析能力を磨いてきました。3.7時代にはプログラミング技術分野で一気に頭角を現し、ClaudeシリーズをVibe Codingの代名詞にしました。4.5時代には、SonnetとOpusの両エースがプログラミングとデータ分析の地位をほぼ揺るぎないものにしました。

一方、OpenAIの勢いは凄まじいです。GPTシリーズは以前プログラミングを重視していなかっただけで、高知能のGPTがプログラミングを学べないわけではありません。GPTが上から攻める態勢に対し、Claudeの主力Opusは大黒柱として、ハードな知力を上げ、2026年に備える必要があります。

良いニュースは、Opus 4.6が各方面でGPT-5.2と大差なく、数学・物理面の知力は同等で、Agent能力は一歩リードしています。

悪いニュースは、これに約2倍のコストがかかることです。AgentアプリケーションがTokenのブラックホールであることを考えると、実際の費用差はさらに大きくなります。

論理スコア：

*1 表は対比関係を際立たせるため、一部の比較可能なモデルのみを表示しており、完全な順位ではありません。

*2 問題およびテスト方法については、大規模言語モデル - 論理能力横断評価 26-01 月間ランキングをご参照ください。新しく#56問題を追加。

*3 完全なランキングは https://llm2014.github.io/llm_benchmark/ で更新されています。

以下ではOpus 4.6推論モードとGPT-5.2推論モードを重点的に比較します。非推論モードについて言及する場合は、特別に記載します。

優位点：

文字処理：文字処理能力は常にClaudeシリーズの得意分野であり、4.6世代でさらに精進しました。多くのモデルを足止めさせた#41の混乱テキスト解析で、Opusは初めて半数以上のケースを通過しました。非推論モードでも半数が通過します。Opusの下限もGPT-5.2の上限より高いです。1月の新問題#55障害物マップ問題では、満点を取るにもしっかりした文字処理能力が必要で、以前最も優れていたモデルはGPT-5.2でしたが、複数の小さなミスがありました。一方、Opusは1パスで満点を取得し、他の2パスでも1箇所のミスのみでした。Opusの文字処理の表現は通常、他のモデルを8ヶ月以上リードしています。

計算：計算は元々Opusの非推論モードの弱みで、4.5の関連スコアは同レベルの中国製モデルにも及びませんでした。しかし4.6は一転して攻勢に出て、計算精度が大幅に向上しました。関連問題は満点取れませんが、高水準で安定しており、わずかな小数点誤差のみです。推論モードは当然満点で安定しており、複雑な計算ではGPT-5.2より優れています。

複雑な推論：ある程度の思考テクニックや問題解決の方法論が必要な問題、例えば数独、変形数独、ARC-AGI類似問題などで、Opusは明らかに特別な訓練を受けており、問題解決効率が顕著に向上しています。#49問題は以前GPT-5.2のみが満点でしたが、現在Opusも安定して満点を取れ、非推論モードでも時々満点が出ます。ただし、筆者のテストでこの種の問題の割合が徐々に減っているため、Opusの将来のスコアは小幅に下がると予想されます。

洞察力：オフィスワーカー向けのモデルとして、データ処理能力は避けて通れない必修課題です。その中にはデータ洞察とパターン洞察の問題も含まれます。この分野は以前GPTシリーズがリードしていましたが、Opusも徐々に追いついてきました。関連問題では、OpusのスコアはGPT-5.2と同じです。ただし、Opusは通常20%〜130%多くTokenを消費し、効率の面ではまだ少し劣ります。

課題：

ハルシネーション：OpusのハルシネーションはGPTよりやや高めです。低ハルシネーションはOpenAIの長期的な技術的優位性の一つであり、Anthropicが追いつくのは簡単ではありません。ハルシネーションの分布はコンテキスト長とあまり関係がなく、数千文字程度の「短い」テキストでも、Opusはかなりの確率で見落としがあり、テキストや数字を見落とし、最終的な結果に誤差が出ます。一方、GPTは複数パスで安定して正解できます。#42年報整理はテキストがより長く、抽出する情報も多いため、Opusのスコアはより低くなります。この種の問題はAgentモードでは検索ツールで解決できますが、ハルシネーションは自己生成のコンテキストにも影響するため、Opusは知力をあまり必要としないが中間ステップが特に多い問題で、安定性が大幅に低下し、スコアを維持できないことが観察されます。

サイバー史官曰く：

Claudeは知力を補強し、GPTはプログラミング工学的思考を補強しています。OpenAIはモデルの安全性、安定性、低ハルシネーション、および単位Token効率といった、より基礎的でインフラ的な作業に注力しています。AnthropicはマルチAgent協調、自己進化、長文コンテキストを獲得し、大規模モデルで従来のオフィスソフトウェアを代替する大道を疾走しています。相互に近づいているように見えて、実際は別々の道を進んでいます。二つのトップクラスのAI企業はどちらもAIの未来について明確な計画を持っており、重複した競争をするのではなく、それぞれが探求していることは時代の幸せです。

Opus 4.6はプログラミング工学テストに追加され、スコアは今後数日以内にウェブサイトに順次アップロードされます。

Claude Opus 4.6 レビュー

関連記事

分享網址