AIエージェントの現状と課題：MIT、ケンブリッジ、スタンフォードなどが合同で分析報告書を発表

最近AI業界で最も話題になっている新語に「SaaSpocalypse」、つまりSaaSの終末があります。

この2週間、Claude CodeがCOBOL近代化機能をリリースすると、IBMの株価は当日13%急落しました。また、セキュリティスキャン機能をリリースすると、数十年間隠されていた500以上の高危険度脆弱性を一気に発見し、サイバーセキュリティ株が一斉に下落しました。ブルームバーグは「どのSaaS企業が生き残れるか」を議論するポッドキャスト番組まで特集しました。

パニックの核心的なロジックは一言でまとめられます：エージェントはSaaSのユーザーではなく、SaaSの代替者である。

従来のSaaSが売っているのは、ワークフローをインターフェースにし、人間がそこに座ってクリックすることです。料金体系は席数ベース——何人の従業員が使うかで課金されます。

エージェントが登場して、この状況が変わりました：エージェントは直接APIを呼び出し、自動的にタスクを完了できるため、誰かがインターフェースを開く必要がありません。人間用のインターフェースの価値が圧縮されます。

市場のパニックは根拠のないものではありません。

これはAIエージェント分野における2020年から2026年初頭までの動向統計図です。

青い棒グラフ——毎月新たに追加されるエージェント関連検索語の数。2023年から徐々に上昇し、2025年半ばにピーク（月間約80語の新語）に達しています。

ピンクの折れ線——Google Scholarにおけるエージェント関連論文の年間数。2024年から急激に上昇し、2025〜2026年には年間1800本近くに達しています。

3種類の円点——各種エージェント製品の実際のリリース時点を示しています。2024年下半期から2025年が集中爆発期で、各種エージェント製品が相次いでローンチされています（詳細は下の図を参照）。

トレンドデータから見ると、エージェント分野は2024〜2025年に爆発期に入っています。学術研究、製品リリース、市場の注目度が同時に急上昇しており、まだ明確な天井に達した兆候はありません。

エージェントの爆発は事実ですが、現在エージェントは一体どの段階まで発展しているのでしょうか？実際に何ができるのか、どれほど自律的か、誰が制御しているのか、問題が起きたら誰が責任を負うのか？

この数日、MITが体系的な報告書を発表し、まさにこの問題に対してより深い理解をもたらしてくれました。

本記事の目的は、エージェントの話で埋め尽くされた情報の中で、ノイズに対抗することです。どのエージェントがより強いか、スコアが高いかは語らず、この報告書のデータを使って、エージェントにどのような問題があるのかを認識してもらいます。「仕事を手伝ってくれる」という層にとどまらずに。

まず、この報告書はMITがケンブリッジ、スタンフォード、ハーバード法科大学院などと共同で発表した2025 AI Agent Index報告書で、現在主流のトップ30のAIエージェントを包括的に分析しています。

データに入る前に、一つの認識基盤を確立する必要があります——「エージェント」という言葉は現在乱用されており、ツールを呼び出せるAIなら何でもエージェントと名乗っています。

MITのこの報告書は、現在最先端かつ最も明確な選定基準を提示しています。4つの条件がすべて満たされる必要があります：

自律性：継続的な人間の介入なしに動作し、実質的な影響を持つ意思決定を自ら行える。
目標の複雑さ：高レベルの目標を分解し、長いチェーンの計画を立て、少なくとも3回以上のツールを継続的に自律的に呼び出せる。手取り足取り指示する必要がない。
環境との相互作用：書き込み権限を持ち、実際に外部世界を変えられる——言葉を話すだけでなく、実際に行動できる。
汎用性：曖昧な指示を処理でき、新しいタスクに適応できる。一つのことしかできない狭い領域のツールではない。

この4つを満たし、かつ十分な市場影響力（検索量、評価額、または先端AI安全コミットメントへの署名）を持つものだけが、このリストに入れます。

95の候補システムから、最終的に30が選出されました。

研究チームは30のエージェントを3つのカテゴリーに分類し、各カテゴリーの技術アーキテクチャとリスク特性は全く異なります。チームは全エージェントに対して45の次元を設計し、合計1350のデータフィールドを統計し、6つの大きな次元に分類しました。

次元1：エージェントの分類——何ができるか？

チャットタイプ（12）——対話インターフェース + ツール呼び出し

Anthropic Claude、Claude Code、Google Gemini、Gemini CLI、Kimi OK Computer、Manus AI、MiniMax Agent、OpenAI ChatGPT、ChatGPT Agent、OpenAI Codex、Perplexity、Z.ai AutoGLM 2.0

ブラウザタイプ（5）——コンピュータとウェブページを直接制御

Alibaba MobileAgent、ByteDance Agent TARS、OpenAI ChatGPT Atlas、Opera Neon、Perplexity Comet

企業ワークフロータイプ（13）——業務プロセスの自動化

Browser Use、Glean Agents、Google Gemini Enterprise、HubSpot Breeze Studio、IBM watsonx Orchestrate、Microsoft Copilot Studio、OpenAI AgentKit、SAP Joule Studio、Salesforce Agentforce、ServiceNow AI Agents、WRITER Action Agent、Zapier AI Agents、n8n Agents

30のエージェントのうち、21が米国、5が中国、残り4がドイツ、ノルウェー、ケイマン諸島に分布しています。

中国製品は5つがランクイン——Kimi、MiniMax、Z.ai、Alibaba MobileAgent、ByteDance TARS。Manusはケイマン諸島に登録されていますが、チームと製品は中国発です。これを含めれば、中国製の割合は20%になります。

23が完全にクローズドソースです。

先端研究所と中国の開発者だけが自社開発モデルを実行しており、残りはすべてGPT、Claude、Geminiの3強に依存しています。

30のエージェントの宣伝用途は、以下の3つに集中しています：

12が研究と情報統合を行っており、消費者向けチャットアシスタントから企業のナレッジプラットフォームまで様々です。11が業務プロセス自動化（人事、営業、カスタマーサービス、IT）を行っており、主に企業向け製品に集中しています。7がGUI操作を行っており、代わりにフォーム入力、注文、チケット予約などを行います。

これら3つの方向を組み合わせると、一般的な知識労働者の一日の作業内容の大部分をカバーしています。

注目すべきは、中国のGUIタイプのエージェントには明確な特徴があることです：スマートフォンとPCでの操作（3/5）により多く焦点を当てており、純粋なウェブ閲覧ではありません。Alibaba MobileAgent、Kimi OK Computer、ByteDance TARSはすべてこの路線を取り、米国製品がウェブ閲覧に重点を置くのとは異なります。

企業タイプが最も多い（13）ですが、存在感は最も弱い——これらの製品は消費者に直接向けられておらず、検索量は低いですが、実際の導入規模とビジネスへの影響力は他の2つのカテゴリーをはるかに上回ります。Microsoft Copilot Studio、Salesforce Agentforce、ServiceNowなどは、実際の企業契約とデータを背景に持っています。

次元2：自律度——5段階フレームワーク

この報告書では、現在最先端かつ明確なエージェント自律度の分類フレームワークを使用しています。5つのレベル：

L1：人間が主導し、エージェントは具体的な指示の実行のみを担当
L2：人間とエージェントが協力して計画し、共同で実行
L3：エージェントが主導して実行し、人間は重要な节点で承認
L4：エージェントが大部分を自律的に実行し、人間は承認者としてのみ参加
L5：エージェントが完全に自律的であり、人間は傍観者

結論は：ブラウザタイプのエージェントは一般的にL4〜L5です。

L4〜L5とは何を意味するのか？タスクを開始した後、基本的に介入する機会がないことを意味します。エージェントは自ら意思決定し、自ら実行し、自ら例外を処理し、あなたができるのは結果を待つか、一部のシステムで「確認」ボタンを押すことだけです。

しかし、まさにそれゆえに、エージェントがデータベースを削除して逃走するような事件が頻繁に発生しています。例えば最近、Metaのセキュリティ責任者がOpenclawによってメールをすべて削除されました。

多くの企業向けエージェントは製品宣伝資料でL1〜L2を強調していますが、実際に企業環境に導入して稼働させると、実際の自律度はL3〜L5に急上昇します。

補助ツールを購入したつもりが、実際には自律的な意思決定者を稼働させていることになります。

次元3：誰がエージェントの土台になっているか？

技術アーキテクチャのレベルでは、この報告書は非常に集中した下層依存構造を指摘しています。

Anthropic、Google、OpenAI自社の製品と中国メーカー（自社開発モデル使用）を除き、残りのほぼすべてのエージェントがGPT、Claude、Geminiの3つの下層に依存しています。

これは次のことを意味します：

この3社の下層モデルメーカーは、エージェントエコシステム全体に対して隠れた支配力を持っています——彼らのモデル戦略、価格設定、サービス条項の変更は、同時に十数以上の上位エージェント製品に影響を与えます。例えば、Anthropicが供給を停止した場合...

また、30の企業エージェントのうち9つだけが、ユーザーによる下層モデルの選択を明確にサポートしており、ある程度この集中リスクをヘッジしています。

次元4：記憶のブラックボックス——何を記憶しているか、あなたは知らない

45のフィールドの中に「Memory Architecture（記憶アーキテクチャ）」と呼ばれる項目があり、エージェントがタスクやセッションをまたいでどのようにコンテキストを保持するかを記録しています。

この欄は、報告書全体の中でグレーフィールド（公開情報が見つからない）が最も密集している領域の一つです。

ほとんどの開発者は、エージェントが何を記憶しているか、どれくらい保存するか、あるタスクで得た情報を全く関係のない次のタスクに持ち込むかどうか、ユーザーがこれらの記憶を閲覧・削除できるかどうかを、全く公開説明していません。

エージェントがメール、カレンダー、CRMデータ、ファイルシステムにアクセスできる状況下で、記憶メカニズムの不透明さが何を意味するか、説明する必要はないでしょう。

次元5：行動空間の違い——手はどの程度伸びるか

異なるタイプのエージェントの「手」は異なる距離まで伸びます。

「行動空間」は、この報告書でエージェントの能力を最も直接的に記述する次元です——その「手」がどこまで届くかが、何ができるか、そして何を引き起こせるかを決定します。

CLIタイプ

CLIタイプ（Claude Code、Gemini CLI）：ファイルシステムを直接読み書きし、ターミナルコマンドを実行します。これは、コードのコンパイル、スクリプトの実行、設定ファイルの変更、ファイルの削除ができることを意味します。これは「ルートサーバー権限」に最も近いエージェントの形態であり、Claude Codeが数十年前の脆弱性を発見できた理由でもあります——実際にコードを実行しており、コードを記述しているわけではありません。

ブラウザタイプ

ブラウザタイプ：クリック、入力、ナビゲーションを通じてウェブページ全体を操作します。航空券の予約、フォームの入力、アカウントへのログイン、メールの送信——人間がブラウザでできることは、理論上すべてできます。

また、ブラウザタイプのエージェントは、以前には存在しなかった問題をもたらしました：AIがユーザーの身元でウェブサイトにアクセスする際、ウェブサイト側はそれを識別できません。

ほとんどのブラウザエージェントはrobots.txt（ウェブサイトがクロールを希望しないことを宣言するプロトコルファイル）を無視し、「私は従来のクローラーではなく、実際のユーザーの代わりに操作している」という理由を提示しています。この理由は技術的にはある程度正当ですが、ウェブサイト側にはそれを検証または拒否するメカニズムがありません。

30のエージェントの中で、ChatGPT Agentだけが暗号署名を使用してアクセス身元を証明し、ウェブサイトが識別して許可するかどうかを選択できるようにしています。他のエージェントのネットワーク行動は、コンテンツ提供者にとって完全に不透明なブラックボックスです。

これは技術的な問題だけではありません。エージェントがあなたの代わりにあるプラットフォームで操作を完了する場合、法的責任はどちらにあるのか？プラットフォームの利用規約はユーザーと結ばれており、エージェントとは結ばれていません。既存の法的枠組みはこの状況に全く対応できていません。

企業ワークフロータイプ

企業ワークフロータイプ：主にCRMコネクタを通じて業務記録を操作します。30のエージェントのうち8つが、Salesforce、HubSpotなどのシステムの顧客データ、販売記録、チケット情報を直接読み書きできます。

重要な発見：30のエージェントのうち20がMCP（Model Context Protocol）をサポートしています。これはAnthropicが推進するオープンツール統合標準です。しかし興味深いことに、ほぼすべてのメーカーがドキュメントで自社の独自コネクタを主推しており、MCPはオープン標準として逆に軽視されています。

次元6：能力は急速に進化、セキュリティは裸同然

セキュリティ透明度の話に戻りましょう。

30のエージェントのうち、エージェント専用のシステムカード（自律度、行動境界、リスク分析を詳細に説明するシステム説明文書）を公開しているのはわずか4つ——ChatGPT Agent、OpenAI Codex、Claude Code、Gemini 2.5 Computer Useです。

30のエージェントのうち25が内部セキュリティテスト結果を公開せず、23が第三者テストデータを一切持っていません。5つの中国エージェントのうち、セキュリティフレームワークやコンプライアンス基準を公開しているのは1つ（Zhipu）だけです。

研究チームは特に、これは中国語ドキュメントが統計に含まれていないだけであり、内部で行われていないことを意味しない可能性があると説明しています。しかし、外部の研究者やユーザーにとっては、結果は同じ：見えない。

現在のエージェントの典型的な導入は4層構造です：

基盤モデルメーカー（Anthropic/OpenAI/Google）→ エージェント開発者（Salesforce/ServiceNow）→ 企業顧客（ある銀行/ある小売業者）→ エンドユーザー。

各層はある程度、自分は単なるプラットフォームやツールであり、上流・下流の行為には責任を負わないと主張しています。問題が発生すると、4層すべてが責任を押し付け合います。

問題が起きたら、誰を探すのか？

研究者はこれを「accountability fragmentation（説明責任の分散化）」と呼んでいます。

この問題は一つの細部にはっきりと現れています：

研究チームは30社すべての開発者に連絡を取り、4週間の時間を与えてデータを確認し、回答を求めました。結果、何らかの形で回答を寄せたのはわずか23%で、そのうち実質的な意見を提供したのはわずか4社でした。

言い換えれば、学術機関が具体的な質問を持ってドアを叩いたとき、76%のエージェント開発者が沈黙を選択しました。

エージェントエコシステムが経験しているのは、単に製品数の爆発ではありません。新しいインフラを急速に構築していますが、このインフラのガバナンスフレームワークはほぼ空白です。

McKinseyは、AIエージェントが2030年までに米国経済に2.9兆ドルの価値を創出すると推定しています。しかし、同じ報告書は、企業が現時点では実質的なリターンをほとんど見ていないことも示しています。

MITのこの報告書は、本質的に外部監査であり、公開情報を使って、30のエージェントの内側を暴いています。

しかし、一つ答えられない質問があります：これらのエージェントは現実世界で、実際にどのような状態で動いているのか？

Claude Code使用報告

MITの報告書が発表されたのと同じ週、Anthropicも報告書を発表しました：Claude Codeの100万回の実際の人間と機械のインタラクションデータを統計し、人々がどのようにClaude Codeを使っているかを伝えています。

Claude Codeは最も成功したエージェントであり、今回はAnthropicの内部視点からエージェントがどこまで進んでいるかも一緒に見てみましょう。両方を合わせて、ようやくエージェントエコシステムの比較的完全な断面図が得られると考えられます。

Anthropicのデータソースは2つ：パブリックAPIの100万回以上のツール呼び出しと、Claude Codeの約50万回のセッションです。

最初に言っておくべきは：Claude Code自体がプログラミングツールであり、APIの初期ユーザーも技術者層が主であるため、このデータは自然に開発者グループに偏っており、AIエージェント市場全体とは同等ではありません。

この前提を持って、プログラミングの需要は約半分を占めています。残りはビジネスインテリジェンス、カスタマーサービス、営業、金融、eコマースなどですが、どれも10ポイントを超えるものはありません。医療、金融、サイバーセキュリティは「萌芽段階」と説明されています。

サンプルが開発者に偏っていることを考慮しても、プログラミングと他の業界との間には桁違いの差があります。

冒頭のニュースを振り返るとつじつまが合います：Claude Codeのセキュリティスキャンでサイバーセキュリティ株が急落、COBOL近代化でIBMが暴落、すべてプログラミングシーンの力が外に溢れ出した結果です。

最も価値のある発見をいくつか：

自律的な実行時間が急速に伸びています。

2025年10月から2026年1月まで、Claude Codeの最長タスクの中断なし実行時間は25分未満から45分以上に伸び、3ヶ月でほぼ倍増しました。

ほとんどの人は依然として短く素早く使っていますが、一部のユーザーはすでにますます大きなタスクをエージェントに任せ始めています。

タスクが大きくなると同時に変化しているのは、ユーザーとエージェントの間の信頼関係です。

新規ユーザー（50回未満のセッション）：約20%が完全自動承認をオンにし、エージェントが自由に動けるようにしています。中断するのはわずか5%です。

上級ユーザー（750回以上のセッション）：40%以上が完全自動承認をオンにしており、信頼は確かに高まっています。しかし、中断率も約9%に上昇し、逆に新規ユーザーの約2倍になっています。

熟練したユーザーほど、制御方法は直感に反しています。

Anthropic自身の解釈は：新規ユーザーは「完全に信じる」と「完全に信じない」の二択ですが、権限を与えると放置します。上級ユーザーは「大きなタスクを自由に走らせながら、重要な节点を監視し、必要に応じて介入する」モードに近いです。

操作リスクの観点から、エージェントのアクションは確かに低リスクが主です。約80%のツール呼び出しはセキュリティ保護があり、73%は何らかの形で人間が関与しています。真に不可逆的な操作（例えば、顧客メールを送信してしまったら取り消せない）は約0.8%しかありません。

リスクは全体として制御可能ですが、エージェントの能力の境界は依然として急速に拡大しています。

Anthropicの内部データによると、2025年8月から12月まで、Claudeは最も難しい内部プログラミングベンチマークタスクで成功率が倍増しました。同期間中、人間の介入は回数当たり5.4回から3.3回に減少しました。

もう一つの詳細：最も複雑なタスクにおいて、Claudeがユーザーに「本当にこれでいいですか？」と確認する頻度は、人間が能動的にAIを中断する頻度の2倍以上です。

これは興味深いです。人間が一方的にAIを監督しているのではなく、AIも逆に人間の意図を確認しています。

2つの報告書を合わせて見ると、何が見えるか？

この2つの報告書の統計基準は確かに異なります——MITは製品数を、Anthropicは呼び出し回数を数えています。

MITの報告書は外部を見ています——30のエージェント製品の公開ドキュメントに何が書かれているか、何が書かれていないか。

Anthropicの報告書は内部を見ています——エージェントが実際の使用の中でどのように動いているか。プログラミングが約50%を占め、他の分野はそれぞれ数ポイントしかありません。

MITの報告書が言っているのは開発者の不透明さ——セキュリティドキュメントの欠如、自律度の過小報告、説明責任の連鎖の断絶。言外の意味は：これらのエージェントについて、私たちが知っていることは少なすぎる。

Anthropicの報告書が言っているのは現実の中で自律度が急速に高まっている——中断なし実行時間が3ヶ月で倍増、ユーザーが能動的に承認権を委譲、高リスクシナリオがすでに登場。言外の意味は：これらのエージェントは予想を超える速度で実際の権力を獲得している。

2つの結論を重ね合わせると、一つのことを指し示しています：エージェントについて私たちが知っていることはますます少なくなっているのに、彼らが行うことはますます増えている。

なぜプログラミングは先行しているのか？

エージェント製品は急速に増えていますが、深い使用は依然としてプログラミングという一つの分野に集中しています。

半導体分析機関SemiAnalysisの創設者Doug O'Laughlin氏は、プログラミングをAIが15兆ドルの情報労働市場に参入するための「橋頭堡（beachhead）」と呼んでいます。AnthropicのCEO Dario Amodei氏は、今年のダボスでより簡潔に概括しました：「ソフトウェアエンジニアリングは最も明確なテストシナリオ——構造化され、デジタル化され、測定可能である。」

OpenAIの共同創業者Andrej Karpathy氏は、より深いロジックを指摘しました：プログラミングは、AIのアウトプットが直接AI自体の進歩を加速できる唯一の分野である。AIがコードを書くことで次世代のAIがより強くなり、他の業界には存在しない自己加速のフライホイールを形成する。

総合すると：プログラミングはAIにとって最も抵抗が少ない実装シナリオであり、同時に唯一自己加速できる分野です。この2つの特質が重なり合い、他の業界をはるかに先行しています。

プログラミングは成功しましたが、成功した後はどうなるのか？

プログラミングが先行している理由は明確になりましたが、もう一つ考える価値がある問題があります：プログラミングというすでに成功したシナリオで、人間とエージェントの関係は実際にどのような形をしているのか？

先ほどのAnthropicの信頼データが実際にヒントを与えてくれました。

新規ユーザーと上級ユーザーの行動の違いは、信頼の構築が単純な「使えば使うほど委譲する」ではなく、「全信か全不信か」の粗放なモードから、「自由に走らせる＋精密に監視する」という精密なモードへと徐々に成長していることを示しています。

現在、73%のエージェント呼び出しは依然として人間が関与しており、一見すると「自動化が不十分」に見えますが、別の角度から見れば：現段階では、人機協働自体が正解であり、「完全自動化」という最終状態への通過点ではない可能性があります。

もしそうなら、医療、法律といった許容誤差がより小さい業界では、人間の関与比率は73%より高くなる必要があり、承認ノードはより密でなければならないでしょう。プログラミングシーンで検証されているのは人機協働というフレームワーク自体ですが、このフレームワークを他のシーンに移す場合、パラメータは業界の特徴に応じて再調整する必要があります。

変化は起きているのか？

はい、まだ初期段階ですが。

Anthropic経済指数によると、Claude上での教育関連タスクの割合は2025年1月の9%から15%に上昇し、最も成長が速い非プログラミングカテゴリーです。企業API顧客においても、オフィス・管理サポート関連タスクの割合が3ポイント上昇し13%に達しています。

業界側でも具体的な事例が登場しています。

Thomson ReutersのCoCounselは、同社170年以上にわたる分類編集経験と4500人の主題専門家のナレッジベースを背景に、弁護士がかつて数時間を要していた判例検索を数分で完了できるようにしました。eSentireはサイバーセキュリティ分野で脅威分析を5時間から7分に短縮し、正確さは上級専門家の95%に匹敵します。

これらの変化は決して小さくありません。しかし、「爆発」と言うにはまだ早いです。

この2つの報告書が描いているのは、AIエージェントの現時点でのスナップショットです。

供給側はすでに非常に賑やかで、巨人たちが企業ワークフロー分野で準備を整え、ウォール街はすでに「SaaSpocalypse」を恐れています。需要側の熱はまだプログラミングという一つの分野に集中しています。

SemiAnalysisはプログラミングを「橋頭堡」と呼んでいます。橋頭堡とは：すでに攻略したが、内陸はまだ戦いが始まっていないことを意味します。

しかし、橋頭堡はあくまで橋頭堡です。Microsoft AI Economy Instituteのデータによると、2025年現在、世界中でAIを使ってプログラミングを試みた人はわずか0.04%、AIツールに料金を支払っている割合も0.3%、84%の人はまだ実際にAIを使用したことがありません。

プログラミングは確かに最も先行していますが、それは依然として極めてニッチな先鋒部隊に過ぎず、内陸市場では、ほとんどまだ本当の戦いが始まっていません。