Claude新モデル4.6登場！さらに多くの仕事が失われる：ウォール街の財務、コンパイラ、セキュリティホワイトハッカー、PPT…すべてが失守

衡宇梦晨発信凹非寺量子位 | 公众号 QbitAI

目を覚ますと、Anthropicが新モデルを公開し、Claude Opus 4.6がお年玉を届けてくれました！

ニュースが伝わると、金融データサービスプロバイダーのFactSetは最悪で取引中に10%急落し、S&P Global、ムーディーズ、ナスダック社は相次いで下落、各大指数が全线で下落しました。

これはAnthropicが今週2回目に市場を揺るがせたことだ。

数日前、同社は自動化された法律作業用のプラグインをこっそりと公開し、 trillionドル規模のソフトウェア株の暴落を直接引き起こしました。

投資家の恐怖は、次の問題に集中しています：数年以内にAIによって破壊されないと誰が保証できるか？できなければ売却する。

今日のAnthropicはさらに厳しい。

今日以前、Claudeの印象は、プログラミング能力が断然強いという点だった。

Claude Opus 4.6は冷笑し、この印象を一撃で打ち破った：俺はもっと多くの分野で強い！

少なくとも公式の説明では、財務分析、研究、およびOfficeの三ツ組み（Word、Excel、PowerPoint）をClaude Opus 4.6は巧みに扱うことができる。

公式サイトには直接書かれている：

GDPval-AA（金融、法律、その他の分野の経済的価値知識作業タスクの性能を評価する指標）において、Opus 4.6は業界で次に優れたモデルであるOpenAI GPT-5.2を144 Elo上回っている～

（これはClaude Opus 4.6がこの評価でGPT-5.2よりも高いスコアを獲得する確率が約70%であり、50%の場合はスコアが同等であることを意味する）

もちろん、プログラミング分野では依然として独走している。

エージェントプログラミング評価であるTerminal-Bench 2.0で最高得点を取得し、「Humanity's Last Exam」では他のすべての最先端モデルをリードしている。

良いニュースは、価格は据え置きで、Opus 4.6の価格は従来の基準を維持している：100万token入力/出力あたり、5ドル/25ドル。

（読みやすくするために、以下では新モデルをOpus 4.6と呼ぶ）

1Mのコンテキストと適応思考で頂点へ返り咲く

Opus 4.6の最も直感的な進歩は1M Tokenの巨大なコンテキストを持つようになったことで、これはClaudeがOpusレベルのモデルでこの長さのコンテキストウィンドウを導入するのは初めてだ。

これはOpus 4.6が長文を処理する際に発生する「コンテキスト減衰」の状況を大幅に改善した。

MRCR v2 8-needle 1Mベンチマーク——大海に針を求める——において、Opus 4.6は76%の得点を獲得し、Claude Sonnet 4.5は18.5%だった。

伴う結果として、検索能力の向上がある。

BrowseComp評価（オンラインで取得困難な情報を評価する）において、Opus 4.6は業界で第一位を獲得し、深く多ステップのエージェント型検索で最良の性能を発揮し、長文ドキュメントに散在する重要な情報を正確に特定できる。

Opus 4.6はまた、適応思考（Adaptive Thinking）機能を導入した。

以前、Claudeモデルを使用する開発者は二者択一で、拡張思考モードはONかOFFかだった。

今、Claudeはいつ深い推論が必要かを自分で判断できる。

（正直なところ、このステップはChatGPTより遅いので、次はこの良い機能を早く実装してほしい）

対応するeffortパラメータは4段階の選択肢——low、medium、high、max——を提供し、デフォルトはhighで、モデルが過剰に思考する場合は手動で低く調整できる。

もう一つの実用的な機能はコンテキスト圧縮（Context Compaction）である。

会話がコンテキストウィンドウの上限に近づくと、自動的に要約して古い内容を置き換え、長時間の会話とエージェントタスクをより簡単にした。

编码、知識作業、検索、推理などのコアシシナリオで圧倒

公式ブログによると、Opus 4.6が登場すると、ほぼどのモデルもこれと争うことができない。

编码、知識作業、検索、推理などのコアシシナリオで、Opus 4.6は顕著な突破を達成した。

複数の評価成績が前世代および業界の競合製品を上回り、例えば：

全体像がわかったら、一つ一つ詳しく見てみよう。

まず、プログラミング能力。

Opus 4.6はTerminal-Bench 2.0で最高得点を取得した。

成績の背後にある実際の能力から見ると、Opus 4.6はより綿密にタスクを計画でき、大規模なコードベースで安定して実行でき、コードレビューとデバッグ精度が向上した。

また、自らのエラーを自主的に発見できる。

もう一つの点は、Opus 4.6は多言語编码をサポートし、言語をまたいだソフトウェア工学の問題を処理できる。

それは上級エンジニアのように数百万行のコードベースの移行を完了でき、実際の時間は半分以下になる。

ここまで書いていて、私はふとこう思った：

エンジニアたちはこのニュースを聞いて、髪の毛が抜けなくなるほど嬉しいのか、それとももっと早く抜けてしまうのか……（考え込む.jpg）

次に、Opus 4.6は積極的に伝統的なオフィス領域に侵入している。

今回はOfficeの三ツ組みに猛烈に攻撃を仕掛けた。

Excel内で乱雑な非構造化データを直接取り込み、合理的な表構造を自行推論し、一度の操作で複数の複雑なステップを処理できる。
あなたの会社のPPTテンプレートを記憶し、フォントとレイアウトスタイルも覚えて、生成されたPPTにAI臭がなく、上司があなたが徹夜で作ったように思わせることができる。

Cowork環境では、Opus 4.6はユーザーを代表して自主的に複数タスクを実行でき、財務分析を実行しながら、研究成果をドキュメントに整理できる。

感じるのは、AnthropicはClaudeをチャットボックスからより多くの空間に引き出そうとしているようだ？

第三に、推理能力の進歩について話そう。

まずまとめを：

Opus 4.6は分野をまたいだ推理において、より強くなった。

多学科の複雑な推理テスト「Humanity's Last Exam」において、Opusはすべての最先端モデルをリードした。

法律分野では、Opus 4.6は40%が満点のBigLaw Benchで、90.2%の得点を獲得した。

金融、法律などの経済的価値志向タスク評価であるGDPval-AAにおいて、Opus 4.6は144 Eloで「業界競合」のOpenAI GPT-5.2を上回った。

複雑な法律、金融の専門知識であれ、巧妙な学術研究であれ、その推理理解の深さは現在のfrontier modelsの頂点に達している。

珍しいことに、この知性の飛躍は安全性を犠牲にすることなく達成された。

Anthropicが最も重視する自動化行動監査において、Opus 4.6の対準レベルは極めて高く、同時に、欺瞞、お世辞などの否定的行動は極めて低い。

Opus 4.6は現在のAI業界が普遍的に頭を悩ませている「過剰な拒否」問題も解決した——

正常で無害なリクエストに直面した時、これまでのどのモデルよりもその堅苦しい拒否をより少なく示す。

現在、Opus 4.6は公式サイト、API、およびすべての主要クラウドプラットフォームで利用可能になっている。

価格は据え置きで、Opus 4.6の価格は従来の基準を維持している：100万token入力/出力あたり、5ドル/25ドル。

ただし、10M tokenコンテキストテスト版では、プロンプトが200k tokenを超えると追加料金が発生する。

注！重！点！

Opus 4.6を使用するには、API呼び出し時に明確にモデル識別子「Claude-opus-4-6」を指定する必要がある。

さらに多くの仕事が失われる

16のエージェントが2週間でCコンパイラを書き上げ、Doomを実行

Opus 4.6がもたらしたコア機能の一つのアップグレードはAgent Teamsで、複数のClaudeインスタンスが並列協力し、人間のリアルタイム監視を必要としない。

Anthropicセキュリティチームの研究者Nicholas Carliniがこれで壓力テストを行い、16のエージェントにゼロからRustでLinuxカーネルをコンパイルできるCコンパイラを書かせた。

2週間、約2000回のClaude Codeセッション、20億の入力Tokenと1.4億の出力Tokenを消費し、総コストは2万ドル未満だった。

最終的な成果は10万行のコンパイラで、x86、ARM、RISC-Vの3つのアーキテクチャでLinux 6.9をコンパイルでき、Doomも実行できる。

已关注

关注

重播分享赞

观看更多

量子位

0/0

00:00/00:42

进度条，百分之0

播放

00:00

00:42

倍速

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

若影片無法播放，請改看來源頁。

继续观看

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

转载

Claude新模型4.6来了！更多饭碗没了：华尔街财务、编译器、安全白帽、PPT…通通失守

量子位

已同步到看一看写下你的评论

视频详情

この並列メカニズムにより、各エージェントは独立したDockerコンテナで実行され、gitリポジトリを共有する。

複数のエージェントが衝突し、同じ問題を解決するために駆けつけるのを防ぐために、システムは単純なロックメカニズムを使用した。

エージェントはcurrent_tasks/ディレクトリにファイルを書き込むことでタスクを「引き受け」、gitの同期メカニズムが自動的に競合を処理する。エージェント間には専用の通信プロトコルも、エージェントのオーケストレーションもなく、各Claudeが次に何を行うかを自分で決定する。

Carliniはブログでこう書いている：

「エージェントがLinuxカーネルのコンパイルを開始したとき、一度立ち往生した。これは巨大な単一タスクで、16のエージェントがすべて同じバグにぶつかり、お互いを上書きしたからだ。」

解決策はGCCを「oracle」の対照グループとして導入し、各エージェントにカーネルのランダムなサブセットのみをコンパイルさせ、二分法で問題ファイルを特定することで、並列能力が本当の意味で発揮されるようになった。

500のゼロデイ脆弱性、開封即発見

Opus 4.6のネットワークセキュリティ分野でのパフォーマンスは、Anthropic自身にも少し意外だった。

公開前のテストで、AnthropicのフロンティアレッドチームはOpus 4.6をサンドボックス環境に投げ込み、Pythonと通常の脆弱性分析ツール（fuzzer、debuggerなど）を与え、没有任何専門指令や領域知識なしに、オープンソースコードの脆弱性を自ら探させた。

結果として、它は500以上の以前に未知の高危険ゼロデイ脆弱性を発掘した。

一つ一つはAnthropicチームメンバーまたは外部セキュリティ研究員によって検証されている。

具体的なケースには：

GhostScript（PDFとPostScriptファイルを処理する一般的なツール）で、クラッシュを引き起こす脆弱性を発見した。これは従来のfuzzingと人工分析で問題が見つからなかった後、Claudeがプロジェクトのgit提出履歴を自ら掘り起こして発掘したものだった。
OpenSC（スマートカードデータを処理するツール）とCGIF（GIFファイルを処理するツール）でバッファオーバーフロー脆弱性を発見した。CGIFのケースでは、ClaudeはさらにPoC（概念検証コード）を自ら書き、脆弱性の存在を証明した。

Anthropicフロンティアレッドチーム責任者のLogan Grahamは、これが将来のオープンソースソフトウェアセキュリティ監査の主要な方法の一つになるとしても、驚かないだろうと言った。

ただしAnthropicも、この能力が悪用される可能性を認めている。

为此、チームは6つの新しいネットワークセキュリティ検出メカニズムを追加し、将来は悪意のあるトラフィックを阻止するリアルタイムインターセプトシステムを導入する可能性がある。

One More Thing

公式サイトによると、Anhtropicは現在「ClaudeでClaudeを構築する」状態になっている。

自社エンジニアは毎日Claude Codeを使用してコードを書き、各新モデルはまず自社の作業環境でテストされる。

参考リンク：[1]https://www.anthropic.com/news/Claude-opus-4-6[2]https://www.anthropic.com/engineering/building-c-compiler[3]https://x.com/i/trending/2019496145987232014[4]https://www.axios.com/2026/02/05/anthropic-Claude-opus-46-software-hunting[5]https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/[6]https://www.reddit.com/r/singularity/comments/1qwrrn7/Claude_opus_46_is_out/

— 欢迎AI产品从业者共建 —

📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库，旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 👇 点亮星标

科技前沿进展每日见