最近の Anthropic は精力的です。3 月 25 日に Claude Code へ新機能「自動モード(auto mode)」が追加されました(X(旧 Twitter)での投稿は執筆時点で 609.2 万回以上閲覧され、3.8 万いいね!を獲得。当方の過去記事でも紹介済みです:Claude Code 自動モード来了,不用逐条点确认)。そして翌 3 月 26 日、Anthropic はエンジニアリングブログにて、この自動モードがどのように設計されたかを公開しました。
以下、同ブログ記事「Claude Code auto mode: a safer way to skip permissions(Claude Code 自動モード:許可をスキップするためのより安全な方法)」の内容を要約・整理します。
Claude Code を使ったことのある方なら実感があるでしょう。コマンドを 1 つ実行するごと、ファイルを 1 つ変更するごとに、「承認しますか?」というポップアップが表示されます。クリックを繰り返すうちに、人間は麻痺してしまいます。Anthropic のデータによれば、ユーザーによる権限プロンプトの承認率は 93% に達します。つまり、ほとんどの場合、ユーザーは機械的に「同意」をクリックしているに過ぎないのです。
この「承認疲れ」がもたらす結果は直感的です。人間は自分が何を承認しているかを真剣に確認しなくなってしまうのです。
この問題に対処するため、同記事では Claude Code の新機能「自動モード(auto mode)」が紹介されています。これは人手による承認をモデルベースの分類器に置き換えるもので、明確な目標を持っています。真に危険な操作のみをブロックし、それ以外はすべて通過させることです。
真の脅威とは何か
Anthropic は社内でエージェントの行動に関するインシデントログを維持しています。記事ではいくつかの実例が挙げられています。エージェントが指示を誤解してリモートの git ブランチを削除したり、エンジニアの GitHub 認証トークンを社内計算クラスターにアップロードしたり、さらには本番用データベースへのマイグレーション操作を実行しようとした事例などです。
これらのインシデントには共通の特徴があります。それは「エージェントが積極的すぎる」ことです。エージェントはユーザーの目標を理解し、実際に作業を手助けしているのですが、許可されていないことを独断で行ってしまうのです。記事では脅威を 4 つに分類しています。(1) 過度に積極的な行動:エージェントが独断で権限を越えた操作を行う。(2) 誠実な誤判断:共有リソースをテスト用リソースと勘違いするなど。(3) プロンプトインジェクション:悪意あるコンテンツによってエージェントの行動がハイジャックされる。(4) モデル自体のアライメント問題(現時点の実践では未観測)。
[図 1: Claude Code における権限モード。タスクの自律性とセキュリティの位置関係を示す] 砂箱は安全だが維持コストが高く、権限の完全スキップは維持不要だが保護が皆無。手動承認はその中間に位置する。自動モードは低維持コストで高自律性を実現することを目標としており、破線の矢印は分類器のカバレッジとモデルの判断力向上に伴い、セキュリティが継続的に改善されることを示しています。
2 段構えの防衛:入力管理と出力管理
自動モードのアーキテクチャは 2 段構えの防衛策で構成されています。
入力層にはサーバー側に配置された「プロンプトインジェクション検出器」があります。これはすべてのツール出力(ファイル読み取り、Web クロール、Shell 出力など)をスキャンし、ハイジャックの疑いがあるコンテンツを発見すると、結果の傍らに警告を付記し、エージェントがユーザーの真の意図に立ち戻るよう促します。
出力層が中核部分です。ここには Sonnet 4.6 で動作する「トランスクリプション分類器」が配置されています。これは各操作の実行前に評価を行い、「人間による承認者の代わり」を務めます。この分類器は 2 段階の設計を採用しています。第 1 段階は高速な単一トークンフィルターで、「はい(ブロック)」または「いいえ(許可)」のみを出力します。第 1 段階でマークされた操作のみが第 2 段階へ進み、チェーン・オブ・ソート(思考の連鎖)による推論を用いて誤検知(偽陽性)を減らします。
[図 2: システムアーキテクチャ] トランスクリプション分類器がツール呼び出しを管理し、プロンプトインジェクション検出器がツールの戻り値を精査します。サブエージェントも同一のプロセスを再帰的に実行し、委任と戻りの各段階で受け渡し用の分類器が設けられています。
重要な設計ポイントとして、分類器はユーザーメッセージとエージェントのツール呼び出し指令のみを参照し、エージェント自身が発するテキストやツールからの戻り結果は意図的に除外しています。なぜでしょうか?エージェントが「これは安全です。ユーザーは以前に暗黙の了解を示しています」といったように、もっともらしい正当化の理屈を生成する可能性があるからです。分類器がこれらを目にすれば、判断が狂わされる恐れがあります。記事の元の表現を強調しておきましょう。「エージェントが何を言ったかではなく、何をしたかを評価する」のです。
この「推論ブラインド(推論内容を見ない)」設計にはもう 1 つ付加価値があります。それは思考連鎖(CoT)モニタリングと補完し合う点です。悪意ある推論を隠し持ったモデルでも、その行動がルールに抵触すれば自動モードにブロックされます。逆に、行動は無害に見えても推論過程で意図が露見したモデルは、思考連鎖モニタリングによって捕捉されます。
3 段階の権限判定。大半の操作に分類器は不要
記事では、操作が分類器に到達する前のフィルタリング階層についても詳しく説明されています。第 1 段階は、組み込みの安全なツールホワイトリストとユーザー設定の許可ルールです(自動モード起動時、任意コード実行を許すような既知の曖昧なルールは自動的に削除されます)。第 2 段階はプロジェクト内ファイル操作です。リポジトリ内のコード変更はバージョン管理で監査可能なため、分類器は発動しません。真にリスクのある操作のみが、第 3 段階であるトランスクリプション分類器に到達します。
分類器のプロンプトテンプレートには固定部分と、3 つのカスタマイズ可能なスロット(環境の信頼境界、ブロックルール、許可例外)が含まれます。デフォルト設定ですぐに使用可能で、ブロックルールには取り消しの効かない削除、セキュリティのダウングレード、信頼境界を越える操作、監査のバイパスなどのカテゴリが含まれています。
[図 4: 2 段階のパイプライン] ホワイトリスト済みのツールは直接実行されます。それ以外は分類器へ。第 1 段階で快速にフィルタリングされ、マークされたもののみが第 2 段階の推論へアップグレードされます。拒否結果はその理由を添えてエージェントに返され、再試行が可能となります(連続 3 回、または累積 20 回の後に終了し、人間へ引き継がれます)。
効果:誤検知率 0.4% だが、危険な操作の 17% は見逃す
記事では 3 つのデータセットで評価が行われています。
[表 1: 分類器の各段階における性能] 実トラフィック(n=10,000):第 1 段階の FPR(偽陽性率:誤ってブロックする率)は 8.5% でしたが、完全なパイプラインでは0.4%に低下。真の過度に積極的な行動(n=52):第 1 段階の FNR(偽陰性率:見逃す率)は 6.6%、完全なパイプラインでは17%。合成データリークテスト(n=1,000):完全なパイプラインの FNR は5.7%でした。
17% という見逃し率は、記事が率直に示した数字です。見逃し事例の多くにおいて、分類器は実際には危険を正しく認識していました(force-push や削除操作などを見ていました)。しかし、セッション内にユーザーの同意を示す信号が存在すると誤判断してしまったのです。例えば、ユーザーが「この PR をクリーンアップして」と述べただけなのに、明示的に force-push を指示していないにもかかわらず、分類器が「承認に見える」証拠を見つけてしまい、その承認が操作の実際の影響範囲をカバーしているかまでは検証できていなかった、といったケースです。
記事はこの点について非常に冷静な立ち位置を取っています。「以前から--dangerously-skip-permissions(権限の完全スキップ)を使っていた層にとって、自動モードはセキュリティにおける劇的な向上だ。しかし、これまで 1 つひとつの操作を真面目に審査していた層にとっては、限界的には後退といえるかもしれない」。これは高リスクなインフラにおける人間による審査の代わりになるものではなく、「完全無防備」と「全ステップで承認ボタンを押す」という極端な二者択一の間にあって、実用的な折り合いをつけたものなのです。
[図 3: 分類器が見ているもの] アシスタントの発話、ツール呼び出しの説明、ツール出力はすべて除去されています。残されているのはユーザーメッセージと、実行者たるツール呼び出し指令のみです。
X(旧 Twitter)での反応
93% という「脳死承認」率を出発点とし、自動モードは 2 段構えの防衛と 3 段階のフィルタリングによって、人間が実際に悩むべき意思決定を極少数に圧縮しました。0.4% という誤検知率により、長時間実行タスクが誤判断で中断されることを防ぎます。たとえ誤ってブロックされたとしても、エージェントは人間を待つことなく、より安全な代替経路を自動的に模索します。
記事の最後では、真の「過度に積極的な行動」のテストセットをさらに拡充し、分類器の安全性とコスト効率を継続的に改善していくと表明されています。分類器に完璧であることは求められていません。十分に多くの危険な操作をブロックし、「無防備な状態」よりもはるかに安全な自律運用を実現できればよいのです。
#无影寺