実践におけるAIエージェントの自律性の測定

Societal Impacts

実践におけるAIエージェントの自律性の測定

2026年2月18日

実践におけるAIエージェントの自律性の測定

AIエージェントはもはや存在しており、すでにメールの振り分けからサイバー諜報まで、結果の重大性が大きく異なる文脈で展開されています。このスペクトラムを理解することは、AIを安全に展開する上で重要ですが、実世界で人々が実際にエージェントをどのように使用しているかについて、驚くべきことにほとんど知られていません。

私たちは、プライバシーを保護するツールを使用して、Claude CodeとパブリックAPIの両方における数百万件の人間とエージェントのインタラクションを分析し、次の問いに答えようとしました。人々はエージェントにどの程度の自律性を付与しているか?経験を積むにつれてそれはどう変化するか?エージェントはどのドメインで動作しているか?そして、エージェントが取る行動はリスクを伴うものか?

私たちの発見は以下の通りです:

  • Claude Codeはより長時間自律的に動作している。最も長時間実行されるセッションの中で、Claude Codeが停止するまでの作業時間は3か月でほぼ倍増し、25分未満から45分を超えるまで増加しました。この増加はモデルのリリースに依存せず滑らかであるため、単純な能力向上の結果ではなく、既存のモデルは実際に行使されているよりも多くの自律性を持ちうることを示唆しています。

以下では、私たちの方法論と調査結果をさらに詳細に提示し、モデル開発者、プロダクト開発者、政策立案者への推奨事項で締めくくります。私たちの中心的な結論は、エージェントの効果的な監視には、デプロイ後の新たな監視インフラストラクチャーと、人間とAIが協力して自律性とリスクを管理するのを助ける新たな人間-AIインタラクションパラダイムの両方が必要だということです。

私たちは、この研究を、人々がエージェントをどのように展開し使用しているかを実証的に理解するための、小さいながらも重要な第一歩と見なしています。エージェントがより広く採用されるにつれて、私たちは方法の改善と調査結果の発信を続けます。

実世界でのエージェントの研究

エージェントを実証的に研究することは困難です。第一に、エージェントとは何かについて合意された定義がありません。第二に、エージェントは急速に進化しています。昨年まで、最も洗練されたエージェントの多くはClaude Codeを含め単一の会話スレッドを含んでいましたが、今日では数時間自律的に動作するマルチエージェントシステムがあります。最後に、モデルプロバイダーは顧客のエージェントのアーキテクチャを把握するのに限られた可視性しか持っていません。例えば、独立したAPIリクエストをエージェント活動の「セッション」に関連付ける信頼できる方法がありません(この課題についてはこの記事の最後で詳しく説明します)。

これらの課題を考慮して、エージェントを実証的にどのように研究できるのでしょうか?

まず、この研究では、概念的に根拠があり実装可能なエージェントの定義を採用しました:エージェントとは、コードの実行、外部APIの呼び出し、他のエージェントへのメッセージ送信など、行動を取ることを可能にするツールを備えたAIシステムです。1 エージェントが使用するツールを研究することで、彼らが世界で何をしているかについて多くのことがわかります。

次に、パブリックAPIでのエージェント的利用と、私たち自身のコーディングエージェントであるClaude Codeの両方からのデータを活用する一連の指標を開発しました。これらは広さと深さのトレードオフを提供します:

  • パブリックAPIにより、数千の異なる顧客にわたるエージェント展開を広く可視化できます。顧客のエージェントアーキテクチャを推測しようとするのではなく、代わりに分析を個々のツール呼び出しのレベルで実行します。2 この簡略化された仮定により、それらのエージェントが展開される文脈が大きく異なる場合でも、実世界のエージェントについて根拠のある一貫した観察を行うことができます。このアプローチの限界は、個々の行動を分離して分析しなければならず、個々の行動が時間とともにどのように長い行動シーケンスを構成するかを再構築できないことです。
  • Claude Codeは逆のトレードオフを提供します。Claude Codeは私たち自身のプロダクトであるため、セッションを通じてリクエストを関連付け、エージェントワークフロー全体を最初から最後まで理解することができます。これにより、Claude Codeは自律性の研究に特に有用です。例えば、人間の介入なしにエージェントがどれだけ長く動作するか、何が中断を引き起こすか、ユーザーが経験を積むにつれてどのようにClaudeへの監視を維持するかなどです。しかし、Claude Codeは単一のプロダクトであるため、APIトラフィックと同じ多様性のエージェント的利用についての洞察は提供しません。

私たちのプライバシー保護インフラストラクチャーを使用して両方のソースからデータを取得することで、いずれも単独では対処できない問いに答えることができます。

Claude Codeはより長時間自律的に動作している

エージェントは実際に人間の関与なしにどれだけ長く動作するのでしょうか?Claude Codeでは、Claudeが作業を開始してから停止するまで(タスクが完了した場合、質問をした場合、またはユーザーによって中断された場合のいずれか)に経過した時間をターンごとに追跡することで、これを直接的に測定できます。3

ターンの継続時間は、自律性の不完全な代理指標です。4 例えば、より能力の高いモデルは同じ作業をより速く完了でき、サブエージェントにより多くの作業が同時に行えるため、両方ともターンを短くする方向に働きます。5 一方で、ユーザーは時間とともにより野心的なタスクを試みている可能性があり、これはターンを長くする方向に働きます。さらに、Claude Codeのユーザーベースは急速に成長しており、したがって変化しています。これらの変化を分離して測定することはできません。私たちが測定するのは、この相互作用の純結果であり、ユーザーがClaudeに独立して作業させる時間の長さ、与えられるタスクの難易度、およびプロダクト自体の効率性(これは日々改善されています)を含みます。

ほとんどのClaude Codeのターンは短いです。中央値のターンは約45秒間続き、この継続時間は過去数か月間わずかにしか変動していません(40秒から55秒の間)。実際、99パーセンタイル以下のほとんどすべてのパーセンタイルは比較的安定していました。6 この安定性は、急速な成長を経験しているプロダットにとって期待されるものです。新規ユーザーがClaude Codeを採用すると、彼らは比較的経験が浅く、次のセクションで示すように、Claudeに完全な自由度を付与する可能性が低いからです。

より示唆に富むシグナルは尾部にあります。最も長いターンは、Claude Codeの最も野心的な使用について最も多くを教えてくれ、自律性がどこに向かっているかを示します。2025年10月から2026年1月の間に、99.9パーセンタイルのターン継続時間はほぼ倍増し、25分未満から45分を超えました(図1)。

図1
図1. 99.9パーセンタイルのターン継続時間(対話型Claude CodeセッションにおいてClaudeがターンごとに作業する時間)、7日間の移動平均。99.9パーセンタイルは9月下旬の25分未満から1月上旬の45分を超えて着実に増加しました。この分析はすべての対話型Claude Codeの使用を反映しています。

注目すべきは、この増加はモデルのリリースを通じて滑らかであることです。自律性が純粋にモデルの能力の関数である場合、各新しいリリースで急激なジャンプが期待されます。このトレンドの比較的安定性は、代わりに複数の潜在的な要因が作用していることを示唆しています。これには、パワーユーザーが時間とともにツールとの信頼を築くこと、Claudeにますます野心的なタスクを適用すること、およびプロダット自体の改善が含まれます。

極端なターン継続時間は1月中旬以降やや低下しました。理由としては次のようなものが考えられます。第一に、Claude Codeのユーザーベースは1月から2月中旬の間に倍増し、より大規模で多様なセッション群が分布を変形させた可能性があります。第二に、ユーザーが年末年始の休暇から戻ってきた際に、Claude Codeにもたらしたプロジェクトが趣味のプロジェクトから、より厳密に限定された業務タスクにシフトした可能性があります。最も可能性が高いのは、これらの要因と私たちが特定していない他の要因の組み合わせです。

私たちは、Anthropic社内のClaude Codeの使用状況も調査し、独立性と実用性がどのように共進化したかを理解しました。8月から12月の間に、社内ユーザーの最も困難なタスクにおけるClaude Codeの成功率は倍増し、同時にセッションあたりの平均人間介入回数は5.4回から3.3回に減少しました。7 ユーザーはClaudeにより多くの自律性を付与し、少なくとも社内では、より少ない介入でより良い結果を達成しています。

両方の測定は、モデルが処理できる自律性が実際に行使されている自律性を上回る重要なデプロイメントオーバーハングを示しています。

これらの発見を外部の能力評価と対比させることは有用です。最も広く引用されている能力評価の一つはMETRの「長期タスクを完了するAI能力の測定」で、これはClaude Opus 4.5が人間に約5時間かかるタスクを50%の成功率で完了できると推定しています。対照的に、Claude Codeでの99.9パーセンタイルのターン継続時間は約42分であり、中央値ははるかに短いです。ただし、2つの指標は直接比較できません。METRの評価は、人間の相互作用も実世界の結果もない理想化された設定でモデルが何ができるかを捉えています。私たちの測定は、Claudeがフィードバックを求めて一時停止し、ユーザーが中断する実際の現場で何が起こるかを捉えています。8 そしてMETRの5時間という数字はタスクの難易度(人間にどれだけ時間がかかるか)を測定しており、モデルが実際に動作する時間ではありません。

能力評価も私たちの測定も、単独ではエージェントの自律性の完全な図を与えませんが、両方を合わせると、実際にモデルに付与される自由度が彼らが処理できるものの後れを取っていることを示唆しています。

Claude Codeの熟練ユーザーは自動承諾をより頻繁に使用するが、より頻繁に中断も行う

人間は時間とともにエージェントとの働き方をどのように適応させるのでしょうか?私たちは、ユーザーがClaude Codeの使用経験を積むにつれ、より多くの自律性を付与することを発見しました(図2)。新規ユーザー(セッション数50未満)は完全な自動承諾を約20%の時間使用します。750セッションまでに、これはセッションの40%以上に増加します。

この変化は徐々的であり、信頼の着実な蓄積を示唆しています。また、Claude Codeのデフォルト設定ではユーザーが個々の行動を手動で承諾することが必要であるため、この移行の一部には、ユーザーがClaudeの能力に慣れ親しむにつれて、より大きな独立性を望む設定にプロダクトを構成することも含まれる可能性があることに注意することが重要です。

図2
図2. アカウントの期間別自動承諾率。経験豊富なユーザーはますます手動の承諾なしでClaudeを実行させます。データは2025年9月19日以降にサインアップしたユーザーのすべての対話型Claude Codeの使用を反映しています。線とCIの範囲はLOWESS平滑化(バンド幅0.15)です。X軸は対数スケールです。

行動を承諾することは、Claude Codeを監督する方法の一つに過ぎません。ユーザーはClaudeが作業している間に介入してフィードバックを提供することもできます。私たちは、中断率が経験とともに増加することを発見しました。新規ユーザー(約10セッションのユーザー)はターンの5%でClaudeを中断しますが、より経験豊富なユーザーはターンの約9%で中断します(図3)。

図3
図3. アカウントの期間別ターンごとの中断率。経験豊富なユーザーはClaudeをより頻繁に中断します。データは2025年9月19日以降にサインアップしたユーザーのすべての対話型Claude Codeの使用を反映しています。網掛けの領域は95%ウィルソンスコア信頼区間を示しています。線とCIの範囲はLOWESS平滑化(バンド幅0.15)です。X軸は対数スケールです。

自動承諾と中断の両方が経験とともに増加します。この見かけの矛盾は、ユーザーの監視戦略の変化を反映しています。新規ユーザーは、各行動が取られる前に承諾する可能性が高く、したがってClaudeの実行中に中断する必要はほとんどありません。経験豊富なユーザーはClaudeに自律的に作業させ、何かがうまくいかない場合や方向転換が必要な場合に介入する可能性が高くなります。より高い中断率は、介入が必要なときにそれを感じ取る能力が磨かれているユーザーによる積極的な監視を反映している可能性もあります。ユーザーが安定した監視スタイルに落ち着くにつれ、ターンごとの中断率は最終的に横ばいになると予想され、実際、最も経験豊富なユーザー間では曲線がすでに平らになっている可能性があります(ただし、セッション数が多いほど信頼区間が広がるため、これを確認するのは困難です)。9

パブリックAPIでも同様のパターンが見られました。最小限の複雑さのタスク(コードの一行を編集するなど)では87%のツール呼び出しに何らかの形で人間の関与がありますが、高い複雑性のタスク(ゼロデイ脆弱性の自律的な発見コンパイラの作成など)では、人間の関与があるツール呼び出しは67%にまで低下します。10 これは直感に反するように見えるかもしれませんが、2つの可能性のある説明があります。第一に、ステップごとの承諾はステップ数が増えるにつれて実用的でなくなるため、複雑なタスクでは個々の行動を監督することが構造的に難しくなります。第二に、Claude Codeのデータは、経験豊富なユーザーがツールにより多くの独立性を付与する傾向があることを示唆しており、複雑なタスクは経験豊富なユーザーから比例して多くなる可能性があります。パブリックAPIではユーザーの経験を直接測定できませんが、全体的なパターンはClaude Codeで観察されるものと一致しています。

これらの発見を総合すると、経験豊富なユーザーが必ずしも監視を放棄しているわけではないことを示唆しています。中断率が自動承諾とともに経験とともに増加している事実は、何らかの形の積極的な監視を示しています。これは、私たちが以前述べた点を補強するものです:効果的な監視には、あらゆる行動を承諾することが必要なのではなく、重要な時に介入できる立場にあることが必要です。

Claude Codeは人間が中断するよりも頻繁に説明を求めて一時停止する

もちろん、実際の現場で自律性がどのように展開するかを形成するのは人間だけではありません。Claudeもまた積極的な参加者であり、どう進めるか自信がない場合は、説明を求めて停止します。私たちは、タスクの複雑さが増すにつれて、Claude Codeはより頻繁に、より頻繁に説明を求めて一時停止し、人間が選択して中断する頻度よりも高くなることを発見しました(図4)。

図4
図4. 目標の複雑さ別のClaudeからの質問と人間による中断。タスクが複雑になるにつれて、Claudeは説明を求めやすくなり、人間は中断しやすくなります。Claudeが開始した停止は、人間が開始した停止よりも速く増加します。すべてのカテゴリで95%信頼区間は0.9%未満、n=50万件の対話型Claude Codeセッション。

最も複雑なタスクでは、Claude Codeは最小限の複雑さのタスクよりも2倍以上の頻度で説明を求めており、Claudeは自分自身の不確実性についてある程度の適性を持っていることを示唆しています。ただし、この発見を過大評価しないことが重要です。Claudeは適切な瞬間に停止していない可能性があり、不必要な質問をする可能性があり、その振る舞いはプラン モードなどのプロダクト機能の影響を受ける可能性があります。いずれにせよ、タスクが難しくなるにつれて、Claudeはますます人間に相談して自律性を自ら制限し、人間が介入する必要があるのではなくなります。11

表1は、Claude Codeが作業を停止する一般的な理由と、人間がClaudeを中断する理由を示しています。

Claude Codeが停止する原因は何か

なぜClaudeは自分自身を停止するのかなぜ人間はClaudeを中断するのか
提案されたアプローチの間でユーザーに選択肢を提示するため(35%)欠けている技術的コンテキストや修正を提供するため(32%)
診断情報やテスト結果を収集するため(21%)Claudeが遅い、ハングした、または過剰であるため(17%)
曖昧または不完全なリクエストを明確にするため(13%)十分な支援を得て独立して進めることができたため(7%)
欠けている認証情報、トークン、またはアクセス権をリクエストするため(12%)自分たちで次のステップを実行したいため(例:手動テスト、デプロイ、コミットなど)(7%)
行動を取る前に承諾や確認を得るため(11%)タスク中に要件を変更するため(5%)
表1. Claudeが自分自身を停止する理由と人間がClaudeを中断する理由としてClaudeが判断した一般的な理由。50万件の人間による中断と50万件の完了したターンの対話型Claude Codeセッションのサンプルに基づいています。一部のクラスタは明確さのために軽く編集されています。12

これらの発見は、エージェントが開始した停止が展開されたシステムにおける重要な種類の監視であることを示唆しています。モデルに自分自身の不確実性を認識し、行動するように訓練することは、人間の承諾フローやアクセス制限などの外部の保護措置を補完する重要な安全特性です。Anthropicでは、Claudeに曖昧なタスクに直面した質問をするように訓練しており、他のモデル開発者にも同様のことを推奨しています。

エージェントはリスクの高いドメインで使用されているが、まだ大規模ではない

人々はエージェントを何に使用しているのでしょうか?これらの展開はどれほど危険性があるのでしょうか?これらのエージェントはどれほど自律的なのでしょうか?リスクは自律性とトレードオフになるのでしょうか?

これらの問いに答えるために、私たちはパブリックAPIからの個々のツール呼び出しに存在する相対的なリスクと自律性を、1から10のスケールでClaudeが推定するのに使用します。簡単に説明すると、リスクスコア1は、何かがうまくいかない場合に結果がない行動を反映し、リスクスコア10は重大な損害を引き起こしうる行動をカバーします。自律性も同じスケールで採点し、低い自律性はエージェントが人間の明確な指示に従っているように見えることを意味し、高い自律性はエージェントがほとんどまたは全く人間の関与なしに独立して動作していることを意味します。13 次に、同様の行動をクラスタにグループ化し、各クラスタの平均リスクと自律性スコアを計算します。

表2は、リスクと自律性の極端なクラスタの例を提供します。

高リスクまたは高自律性のツール使用クラスタ

平均リスクが高い平均自律性が高い
正当な開発機能を装ったAPIキー窃取バックドアを実装する(リスク:6.0、自律性:8.0)正当な開発を装ったレッドチーム特権エスカレーションと認証情報窃取(自律性:8.3、リスク:3.3)
研究室環境で金属ナトリウムと反応性化学物質容器を移動する(リスク:4.8、自律性:2.9)ハートビートチェック中の自動システムヘルスと運用状態モニタリングを実行する(自律性:8.0、リスク:1.1)
リクエストしたユーザーに患者の医療記録を取得して表示する(リスク:4.4、自律性:3.2)利益生成のために自律的に暗号通貨取引を実行する(自律性:7.7、リスク:2.2)
火災緊急事態に対応し、火災安全情報を提供する(リスク:3.6、自律性:5.2)収集した情報を用いて参加者に自動的に会議リマインダーを送信する(自律性:7.6、リスク:1.7)
本番Webアプリケーションにバグ修正とパッチをデプロイする(リスク:3.6、自律性:4.8)メールを監視し、緊急のビジネスメッセージについてオペレーターに警告する(自律性:7.5、リスク:1.7)
表2. 平均リスクが高いまたは平均自律性が高いクラスタ。パブリックAPIからの99万8481件のランダムなツール呼び出しのサンプルに基づく。

これらのエージェントに対する限られた可視性を考えると、これらの行動がシミュレーションされている可能性があります(例えば、Claudeが注文する金融取引が実際に実行されているかどうかを判断する方法はなく、「データ窃取」の多くは評価であると考えています)。そして、これらの高リスク行動は全体のトラフィックの割合としては稀ですが、単一のエラーの結果でも重大である可能性があります。

私たちは、ツール呼び出しの80%が、制限された権限や人間の承諾要件など、少なくとも一種類の保護措置を持つエージェントから来ていることを発見しました。73%は何らかの形で人間が loop にいるように見え、0.8%の行動のみが不可逆的(顧客にメールを送信するなど)のように見えます。14

すべてのクラスタのリスクと自律性の共同分布を可視化するために、それぞれを両方の次元での平均スコアでプロットします。図5の各点は関連する行動のクラスタに対応し、その平均リスクと自律性によって位置づけられています。

図5
図5. タスククラスタ別の平均Claude推定リスクと自律性。右上の四分円—高い自律性、高いリスク—は疎らに埋まっていますが、空ではありません。データはパブリックAPIを介して行われたツール呼び出しを反映しています。これは、個々のツール呼び出しのレベルでのClaude生成の分類であり、可能な限り内部データに対して検証されています。完全な方法論は付録で説明します。集計最小値(ユニークなツール呼び出しまたは顧客のいずれかが不十分なため)を満たさないクラスタは除外されています。パブリックAPIからの99万8481件のツール呼び出しのサンプルに基づく。

パブリックAPI上の圧倒的多数の行動は低リスクです。しかし、ほとんどのエージェント展開が比較的無害である一方で、リスクと自律性の最前線で多数の新しい使用が見られました。15 最もリスクの高いクラスタ—再び、評価であると予想されるものの多く—は、機微なセキュリティ関連の行動、金融取引、医療情報に関与する傾向がありました。リスクは低いスケールの端に集中している一方、自律性はより広く変動します。低い端(自律性スコア3-4)では、エージェントが人間のために小さく範囲の明確なタスクを完了しているのが見られます(レストランの予約をするやコードの小さな調整など)。高い端(自律性スコア6以上)では、エージェントがデータサイエンスコンペに機械学習モデルを提出したり、カスタマーサービスリクエストを振り分けたりしているのが見られます。

私たちはまた、リスクと自律性の極端で動作するエージェントがますます一般的になると予想しています。今日、エージェントは単一の業界に集中しています。ソフトウェアエンジニアリングはパブリックAPI上のツール呼び出しのほぼ50%を占めています(図6)。コーディングを超えて、ビジネスインテリジェンス、カスタマーサービス、営業、金融、Eコマースを含む多数の小さなアプリケーションが見られますが、いずれもトラフィックの数パーセント以上を占めていません。エージェントがこれらの領域に拡大するにつれ、多くはバグ修正よりも高いリスクを伴うため、リスクと自律性の最前線が拡大すると予想されます。

図6
図6. ドメイン別ツール呼び出しの分布。ソフトウェアエンジニアリングはツール呼び出しのほぼ50%を占めています。データはパブリックAPIを介して行われたツール呼び出しを反映しています。すべてのカテゴリで95%信頼区間は0.5%未満、n=99万8481。

これらのパターンは、エージェント導入の初期段階にあることを示唆しています。ソフトウェアエンジニアが最初に大規模にエージェントツールを構築し使用し、図6は他の業界でもエージェントを試し始めていることを示唆しています。16 私たちの方法論により、これらのパターンが時間とともにどのように進化するかを監視することができます。特に、使用がより自律的でリスクの高いタスクに向かう傾向があるかどうかを監視できます。

私たちの主要な数値は安心させるものです—ほとんどのエージェント行動は低リスクかつ可逆的であり、人間は通常ループに入っています—これらの平均は最前線での展開を隠蔽することがあります。ソフトウェアエンジニアリングへの導入の集中と、新しいドメインでの増大する実験を合わせると、リスクと自律性の最前線が拡大することを示唆しています。この記事の最後の推奨事項で、これがモデル開発者、プロダクト開発者、政策立案者にとって何を意味するかを説明します。

限界

この研究はまだ始まったばかりです。私たちはエージェント活動の部分的なビューのみを提供し、私たちのデータが何を教えてくれ、教えてくれないかについて率直に伝えたいと考えています:

  • 私たちは単一のモデルプロバイダーであるAnthropicからのトラフィックのみを分析できます。他のモデル上に構築されたエージェントは、異なる導入パターン、リスクプロファイル、相互作用のダイナミクスを示す可能性があります。
  • 私たちの2つのデータソースは補完的ですが不完全なビューを提供します。パブリックAPIトラフィックは数千の展開にわたる広さを提供しますが、個々のツール呼び出しのみを分離して分析し、完全なエージェントセッションではありません。Claude Codeは完全なセッションを提供しますが、圧倒的にソフトウェアエンジニアリングに使用される単一のプロダクトに限られています。私たちの最も強力な調査結果の多くはClaude Codeのデータに基づいており、他のドメインやプロダクトに一般化できない可能性があります。
  • 私たちの分類はClaudeによって生成されます。私たちは各次元にオプトアウトカテゴリ(例:「推測不能」、「その他」)を提供し、可能な限り内部データに対して検証しています(詳細は付録を参照)、ただしプライバシー制約のため基礎となるデータを手動で検査することはできません。一部の保護措置や監視メカニズムは、私たちが観察できる文脈の外に存在する可能性もあります。
  • この分析は特定の期間(2025年末から2026年初頭)を反映しています。エージェントの状況は急速に変化しており、能力が向上し導入が進化するにつれてパターンは変化する可能性があります。私たちは時間をかけてこの分析を拡張する予定です。
  • 私たちのパブリックAPIサンプルは個々のツール呼び出しのレベルで抽出されるため、繰り返されるファイル編集を伴うソフトウェアエンジニアリングワークフローのような多くの連続したツール呼び出しを伴う展開は、より少ない行動で目標を達成する展開に比べて過大表示されます。このサンプリングアプローチはエージェント活動の量を反映していますが、必ずしもエージェント展開や使用の分布を反映しているわけではありません。
  • 私たちはパブリックAPIでClaudeが使用するツールとそれらの行動を取り囲む文脈を研究しますが、顧客がパブリックAPI上に構築するより広範なシステムへの可視性は限られています。APIレベルで自律的に動作しているように見えるエージェントも、私たちが観察できないダウンストリームの人間によるレビューがある可能性があります。特に、私たちのリスク、自律性、および人間の関与の分類は、個々のツール呼び出しの文脈からClaudeが推測できることを反映しており、本番環境で取られた行動と評価やレッドチーム演習の一部として取られた行動を区別しません。リスクの最も高いクラスタのいくつかはセキュリティ評価のように見え、これは各々の行動を取り囲むより広範な文脈への私たちの可視性の限界を浮き彫りにしています。

今後の展望

私たちはエージェント導入の初期段階にありますが、自律性は向上し、Coworkのようなプロダクトがエージェントをより身近にするにつれ、より高いステークスを伴う展開が出現しています。以下では、モデル開発者、プロダクト開発者、政策立案者への推奨事項を提供します。私たちが実世界のエージェント行動の測定を始めたばかりであることを考慮し、強力な処方は避け、今後の作業の領域を強調します。

モデルおよびプロダクト開発者は、デプロイ後の監視に投資すべきです。デプロイ後の監視は、エージェントが実際にどのように使用されているかを理解するために不可欠です。デプロイ前の評価は、管理された設定でエージェントが何ができるかをテストしますが、私たちの調査結果の多くはデプロイ前のテストだけでは観察できません。モデルの能力を理解することに加えて、人々が実際にエージェントとどのように相互作用するかも理解する必要があります。ここで報告したデータは、私たちがそれを収集するインフラストラクチャーを構築することを選択したから存在します。しかし、やるべきことがまだあります。私たちはパブリックAPIへの独立したリクエストを首尾一貫したエージェントセッションに関連付ける信頼できる方法がなく、Claude Codeのようなファーストパーティ製品を超えたエージェント行動について学べることに限界があります。プライバシーを保護する方法でこれらの方法を開発することは、業界横断的な研究と協力の重要な領域です。

モデル開発者は、モデルに自分自身の不確実性を認識させることを考慮すべきです。モデルに自分自身の不確実性を認識させ、積極的に問題を人間に提出するように訓練することは、人間の承諾フローやアクセス制限などの外部の保護措置を補完する重要な安全特性です。私たちはClaudeにこれをするように訓練しており(そして分析はClaude Codeが人間が中断するよりも頻繁に質問をすることを示しています)、他のモデル開発者にも同様のことを推奨します。

プロダクト開発者は、ユーザーの監視のために設計すべきです。エージェントの効果的な監視には、人間を承認チェーンに入れる以上のものが必要です。私たちは、ユーザーがエージェントの経験を積むにつれ、個々の行動を承諾することから、エージェントが何をしているかを監視し、必要に応じて介入することへとシフトする傾向があることを発見しました。例えばClaude Codeでは、経験豊富なユーザーは自動承諾をより多く行いますが、より頻繁に中断もします。パブリックAPIでも関連するパターンが見られ、目標の複雑さが増すにつれて人間の関与が減少するように見えます。プロダクト開発者は、ユーザーが何を信頼できるか可視化できるツールに投資すべきであり、何かがうまくいかないときにエージェントを方向転換できる簡単な介入メカニズムも提供すべきです。これはClaude Codeに対して私たちが継続的に投資しているものです(例:リアルタイムステアリングOpenTelemetryを通じて)、他のプロダクト開発者にも同様のことを推奨します。

特定のインタラクションパターンを義務付けるには時期尚早です。私たちが確固たる指導を提供できると感じている領域は、何を義務付けるべきでないかです。私たちの調査結果は、経験豊富なユーザーが個々のエージェント行動を承諾することから離れ、必要に応じて監視し介入することへとシフトすることを示唆しています。人間が各々の行動を承諾することを要求するなど、特定のインタラクションパターンを規定する監視要件は、必ずしも安全性の利点を生み出さずに摩擦を生み出します。エージェントとエージェント測定の科学が成熟するにつれ、焦点は、特定の関与形式を要求することではなく、人間が効果的に監視し介入できる立場にあるかどうかに置かれるべきです。

この研究からの中心的な教訓は、実際に行使される自律性は、モデル、ユーザー、およびプロダクトが共同で構築するものであるということです。Claudeは不確実なときに質問をして停止することで自分の独立性を制限します。ユーザーはモデルと作業を通じて信頼を構築し、それに応じて監視戦略を変えます。私たちがどのような展開でも観察するものは、これら3つの力すべてから生じるものであり、これがデプロイ前の評価だけでは完全に特徴づけられない理由です。エージェントが実際にどのように振る舞うかを理解するには、実世界でそれらを測定する必要があり、それを行うためのインフラストラクチャーはまだ初期段階にあります。

著者

Miles McCain、Thomas Millar、Saffron Huang、Jake Eaton、Kunal Handa、Michael Stern、Alex Tamkin、Matt Kearney、Esin Durmus、Judy Shen、Jerry Hong、Brian Calvert、Jun Shern Chan、Francesco Mosconi、David Saunders、Tyler Neylon、Gabriel Nicholas、Sarah Pollack、Jack Clark、Deep Ganguli。

Bibtex

この記事を引用したい場合は、以下のBibtexキーを使用できます:

@online{anthropic2026agents, author = {Miles McCain and Thomas Millar and Saffron Huang and Jake Eaton and Kunal Handa and Michael Stern and Alex Tamkin and Matt Kearney and Esin Durmus and Judy Shen and Jerry Hong and Brian Calvert and Jun Shern Chan and Francesco Mosconi and David Saunders and Tyler Neylon and Gabriel Nicholas and Sarah Pollack and Jack Clark and Deep Ganguli}, title = {Measuring AI agent autonomy in practice}, date = {2026-02-18}, year = {2026}, url = {https://anthropic.com/research/measuring-agent-autonomy} }

付録

詳細はこの記事のPDF付録に記載されています。

脚注

1 私たちの定義は、RussellおよびNorvig(1995)の定義と互換性があります。彼らはエージェントを「センサーを通じて環境を認識し、エフェクターを通じて環境に作用するものとして見られるあらゆるもの」と定義しています。私たちの定義はSimon Willisonの定義とも互換性があります。彼は記述しています。エージェントとは「目標を達成するためにツールをループで実行するシステム」です。

完全な文献レビューはこの記事の範囲を超えますが、私たちの思考の枠組みに役立った以下の作業を発見しました。KasirzadehおよびGabriel(2025)は、自律性、有効性、目標の複雑さ、および汎用性の4次元でAIエージェントを特徴づけるフレームワークを提案し、異なるクラスのシステムにわたるガバナンス課題をマッピングする「エージェント的プロフィール」を構築しています。Morrisら(2024)はパフォーマンスと汎用性に基づくAGIのレベルを提案し、自律性を分離可能な展開選択として扱っています。Feng、McDonald、およびZhang(2025)は、オペレーターから観測者までのユーザーの役割に基づいて5つの自律性レベルを定義しています。Shavitら(2023)はエージェント的システムを統治するための実践を提案し、Mitchellら(2025)は、リスクが自律性とともにスケールするため、完全に自律的なエージェントは開発すべきではないと主張しています。Chanら(2023)は、広範な展開の前にエージェント的システムからの害を予期することを主張し、報酬ハッキング、権力の集中、および集団的意思決定の侵食などのリスクを強調しています。Chanら(2024)は、エージェント識別子、リアルタイム監視、および活動記録がAIエージェントへの可視性をどのように高めうるかを評価しています。

実証的な側面では、Kapoorら(2024)はエージェントベンチマークがコストと再現性を無視していることを批判しています。Panら(2025)は実践者を調査し、本番のエージェントは傾向としてシンプルで人間による監視下にあることを発見しています。Yangら(2025)はPerplexityの使用データを分析し、生産性と学習タスクが支配的であることを発見しています。Sarkar(2025)は、経験豊富な開発者がエージェント生成コードを受け入れる可能性が高いことを発見しています。Anthropicでは、社内社外の両方で、専門家がどのようにAIを仕事に組み込むかも研究しています。私たちの仕事は、APIとClaude Codeの両方にわたるファーストパーティデータを使用して展開パターンを分析することにより、これらの取り組みを補完しています。これにより、外部から観察するのが困難な自律性、保護措置、およびリスクへの可視性が得られます。

2 私たちはエージェントをツールを使用するAIシステムとして特徴づけるため、個々のツール呼び出しをエージェント行動の構成要素として分析できます。エージェントが世界で何をしているかを理解するために、彼らが使用するツールとそれらの行動の文脈(行動時のシステムプロンプトや会話履歴など)を研究します。

3 これらの結果は、プログラミング関連のタスクにおけるClaudeのパフォーマンスを反映しており、必ずしも他のドメインでのパフォーマンスに翻訳されるわけではありません。

4 この記事全体を通じて、私たちは「自律性」をやや非形式的に使用し、エージェントが人間の指示と監視からどれだけ独立して動作するかの度合いを指します。最小限の自律性を持つエージェントは、人間が明確に要求したことを正確に実行します。高い自律性を持つエージェントは、ほとんどまたは全く人間の関与なしに、何をしどのように行うかについて自分の意思決定を行います。自律性はモデルやシステムの固定された特性ではなく、モデルの振る舞い、ユーザーの監視戦略、およびプロダクトの設計によって形成される展開の出現特性です。私たちは正確な形式的定義を試みません。実際に自律性をどのように実装し測定するかの詳細については、付録を参照してください。

5 さらに、異なる方法で展開された同じモデルは、異なる速度で出力を生成することができます。例えば、私たちは最近、Opus 4.6用の高速モードをリリースしました。これは通常のOpusより2.5倍速く出力を生成します。

6 他のパーセンタイルでのターン継続時間については、付録を参照してください。

7 具体的には、私たちはClaudeを使用して各社内Claude Codeセッションを4つの複雑さカテゴリに分類し、タスクが成功したかどうかを決定します。ここでは、最も困難なタスクカテゴリの成功率を報告しています。

8 METRの5時間という数字はタスクの難易度(人間にどれだけ時間がかかるか)を測定しており、私たちの測定はモデルの速度やユーザーのコンピューティング環境などの要因に影響される実際の経過時間を反映しています。私たちはこれらの指標を横断して推論しようとはせず、ここで報告する数字がMETRの調査結果を知っている読者にとって大幅に低い理由を説明するためにこの比較を含めています。

9 これらのパターンは対話型Claude Codeセッションから来ており、圧倒的にソフトウェアエンジニアリングを反映しています。ソフトウェアは、出力をテストでき、簡単に比較でき、リリース前にレビューできるため、監視監督に異常に適しています。エージェントの出力を確認するのに、その出力を生成するのと同じ専門知識を必要とするドメインでは、このシフトは遅くなったり異なる形態を取ったりする可能性があります。上昇する中断率は、より困難なタスクを完了している経験豊富なユーザーを反映している可能性もあります。これは自然により多くの人間の入力を必要とします。最後に、Claude Codeのデフォルト設定は新規ユーザーを承諾ベースの監視に向ける(アクションはデフォルトで自動承諾されない)ため、私たちが観察する変化の一部はClaude Codeのプロダクト設計を反映している可能性があります。

10 複雑さと人間の関与の両方は、Claudeにツール呼び出し全体の文脈(システムプロンプトや会話履歴を含む)を分析させることで推定されます。完全な分類プロンプトは付録で入手可能です。人間の関与を定義することは特に困難です。多くのトランスクリプトは、人間が会話を積極的に操作していない場合でも、人間からのコンテンツを含んでいます(例えば、ユーザーメッセージがモデレートまたは分析されている場合など)。手動検証では、Claudeがツール呼び出しに人間の関与がないと分類した場合、ほぼ常に正確でしたが、人間の関与がない場所で人間の関与を識別することがありました。その結果、これらの推定は人間の関与の上限として解釈されるべきです。

11 ある意味で、ユーザーに質問をして停止すること自体がエージェンシーの一形態です。私たちは「自分の自律性を制限する」を、Claudeが独立して作業を続けることができたときに人間からの指導を求めることを選ぶことを意味するために使用しています。

12 これらのクラスタは、Claudeに各中断または一時停止とその周囲のセッション文脈を分析させ、関連する理由をグループ化することで生成されました。私たちは密接に関連するクラスタを手動で組み合わせ、明確さのために名前を編集しました。示されているクラスタは網羅的ではありません。

13 私たちはこれらのスコアを比較的指標として扱い、正確な測定値ではありません。各レベルの厳密な基準を定義するのではなく、各ツール呼び出しの周囲の文脈についてClaudeの一般的な判断に依存します。これにより、分類は私たちが予期しなかった考慮事項を捉えることができます。トレードオフは、スコアが単一のスコアを絶対的な意味で解釈するよりも、互いに対して行動を比較するためにより意味があるということです。完全なプロンプトについては、付録を参照してください。

14 これらの数字をどのように検証したかおよび正確な定義についての詳細は、付録を参照してください。特に、Claudeはしばしば人間の関与を過大評価したため、私たちは80%が直接の人間の監視を持つツール呼び出しの数の上限であると予想しています。

15 私たちのシステムはまた、集計最小値を満たさないクラスタも自動的に除外します。これは、Claudeを使用して実行している少数の顧客のみのタスクがこの分析では浮上しないことを意味します。

16 ソフトウェアエンジニアリングの導入曲線が他のドメインで繰り返されるかどうかは未解決の問題です。ソフトウェアは比較的テストとレビューが容易で、コードを実行して機能するかどうかを確認できるため、エージェントを信頼し、間違いを見つけることが容易になります。法律、医学、または金融などのドメインでは、エージェントの出力を確認するのに相当の努力が必要になる可能性があり、信頼の開発は遅くなる可能性があります。

関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.