数オリは解けるが、時計は読めない：スタンフォード大 2026 年版 AI 報告書が示す 15 の洞察

スタンフォード HAI 研究所 2026 年版 AI インデックス報告書の表紙イメージ

4 月 13 日、スタンフォード大学人間中心 AI 研究所（HAI）が「2026 年版 AI インデックス報告書」を発表した。400 ページを超える同書は、技術力、投資動向、雇用への影響、世論の認識までを網羅し、産業界におけるこれまでにない包括的な第三者による年次監査報告となっている。

2017 年から毎年発行されている本報告書だが、今年の結論を一言で要約すれば「AI の能力が、あらゆるものを凌駕する前例のないスピードで進化している」となる。規制の枠組みも、一般市民の信頼も、教育制度も、さらには AI 企業自身が情報開示に充てる意欲さえもが、その進化速度に追いついていないのが実情だ。

以下、同報告書から抽出した核心部分をお届けする。

原文：https://hai.stanford.edu/ai-index/2026-ai-index-report

1. 数学オリンピックは解けるが、時計の針は読めない

まずはある詳細なデータから始めよう。

今報告書に掲載されているあるグラフは、横軸に時間、縦軸に人間に対する AI のタスク達成度を表している。その中で、コード作成能力を示す線が垂直に近い角度で急上昇しているのが確認できる。実際のソフトウェアエンジニアリングタスクを AI が自律的に完了できるかを測定する「SWE-bench Verified」では、わずか 1 年で正答率が 60% からほぼ 100% へ到達した。同じ期間に、AI エージェントによる実世界タスクの成功率は 20% から 77.3% へ、サイバーセキュリティ問題の解決率は 15% から 93% へとそれぞれ急騰している。

Terminal-Bench 2.0 における精度の推移 — 過去 1 年間、Terminal-Bench 2.0 における精度は顕著に向上。2025 年 2 月の 20% から、2026 年初頭には 77.3% へ上昇した（図 2.5.2 参照）。

「Humanity's Last Exam（人類最後の試験：HLE）」は、物理学、数学、歴史、法学など、ほぼ全ての高度な学問分野を網羅し、AI を行き詰まらせるために世界中の約 1000 人の専門家が共同で設計した試験問題群だ。2025 年当時、主席モデルの正答率は 8.8% に過ぎなかったが、今日では最先端モデルのスコアは 50% を超えている。

HLE におけるモデル精度の推移 — 2024 年から 2025 年の間に、HLE におけるモデルの精度は 30 ポイント向上。1 年足らずで、精度は 10% 未満から 38.3% へと跳ね上がった（図 2.4.4 参照）。

これはもはや直線的な成長ではなく、飛躍的進化（ジャンプ）と呼ぶべきものだ。

しかし、同じ報告書の中に、これとは対照的なもう一つの線もある。ロボットが洗濯物を畳んだり食器を洗ったりするといった現実の家事タスクを完了できる成功率は、未だに 12% にとどまっている。AI はいまだにアナログ時計の時刻を安定して読み取ることもできず、一貫性のある動画の生成も困難であり、多段階の計画立案では依然としてエラーを犯し、一部の専門家向け学術試験には依然として正解できないでいる。

Gemini Deep Think は 2025 年の国際数学オリンピック（IMO）において、自然言語での推論により 4.5 時間の制限時間内で 35 点を獲得し金メダル相当を記録。2024 年の銀メダル相当（28 点）から得点を伸ばした。一方、アナログ時計の読み取りを問う「ClockBench」では、最高性能モデルの正答率は 50.1% に留まり、人間は 90.1% を記録している。

能力の分布には明らかな偏りがある。ある次元では人間の検証能力を遥かに超える領域に達している一方、別の次元では依然として這うような進歩しか遂げていないのだ。これが 2026 年時点における AI の真の姿であり、今後議論される全ての問題の前提条件となっている。

2. 米国の AI 投資額は中国の 23 倍、しかし人材流入は 89% 減

2025 年、世界の民間 AI 投資額は 3447 億ドルに達し、前年比 127.5% 増となった。企業レベルでの AI 投資総額に至っては 5817 億ドルと、1 年で倍以上に膨れ上がっている。

この「軍拡競争」において、最も激しく資金を投じているのが米国だ。2025 年の米国の AI 投資額は 2859 億ドルで、2 位中国（124 億ドル）の実に 23 倍に相当する。この格差は圧倒的だ。

しかし、同じ報告書内の別のデータは、これと全く逆の傾向を示している。

2017 年から 2026 年の間に、AI 分野のトップクラス研究者の米国への移住数は 89% も減少した。直近の 1 年間に至っては、さらに 80% も激減している。

この二つの数字が示す意味は明白だ。米国は AI により多くの資金を投じているが、その資金で呼び込める最高峰の人材は減少する一方である。カネは流入し続けているが、その限界効用は人材の流出によって蝕まれている。

中国の投資ロジックはこれとは異なる。報告書は、単純な民間投資額での比較では、中国の AI への資本投下規模を体系的に過小評価してしまうと指摘する。中国政府は「政府系引導基金（政府指導ファンド）」という仕組みを通じ、2000 年以降、AI を含む各分野に累計 9120 億ドル超を投入してきた。この資金は市場ルートを通らず、民間投資データには現れないが、実体として確かに存在する。

モデルの数においては、米国が 2025 年に 50 の「注目すべき」モデルを発表したのに対し、中国は約 30。その差は縮まっている。産業用ロボットの設置台数では、中国が 2024 年に 29 万 5000 台を設置したのに対し、米国は 3 万 4200 台。その差は 8.6 倍に及ぶ。米中の AI 戦略は二つの並行するトラックを走っており、正面から衝突しているのはその一部に過ぎない。

3. 22 歳のプログラマーは肌で感じている、CEO が「AI は単なるツール」と言う間に

雇用への影響を示すデータが、今年ほど明確に無視できない形で示されたことはない。

22 歳から 25 歳のソフトウェア開発者の雇用者数は、2024 年以降、約 20% も減少した。一方、26 歳以上の同業者の雇用者数は横ばいか、わずかながら増加傾向にある。これはソフトウェア業界全体が縮小しているわけではない。AI の衝撃がボトムアップで起きており、エントリーレベルの職種を正確に削ぎ落としているのだ。

年齢層別ソフトウェア開発者の雇用推移 — 2022 年以降、最も若い労働者（22〜25 歳）の雇用者数は減少傾向にある。一方、より高年齢層の従業員数は増加し続けている（図 4.4.29 参照）。2025 年 9 月時点での 22〜25 歳のソフトウェア開発者の雇用者数は、2022 年のピーク時と比較して約 20% 減少した。

カスタマーサポートの分野でも同様のパターンが見られる。初級者の岗位は縮小する一方、上級者の岗位は当面は安全圏にある。

マッキンゼーの調査によると、企業の役員の 3 分の 1 が、今後 1 年間で従業員規模をさらに縮小する見込みだと回答。特にサービス業、サプライチェーン、ソフトウェアエンジニアリング分野での削減が見込まれている。これは将来の計画であり、既に起きたことではない。しかし既に起きているのは、若者が真っ先にその影響を感じているという事実だ。

報告書の研究者らは重要な留保事項も示している。雇用データはマクロ経済の影響も受けるため、AI の影響のみを完全に切り分けることはできないという点だ。しかし、彼らは一つの異常な現象も指摘している。AI への露出度が低い職業ほど、失業率の上昇幅が AI への露出度が高い職業よりも大きいというのだ。これは「AI が直接的に仕事を奪う」という単純な物語とは合致せず、その裏ではより複雑な労働市場の再構築が進行している可能性がある。

報告書はまた、AI もたらす生産性向上の数値も示している。カスタマーサポート分野で 14%、ソフトウェア開発分野で 26% の向上だ。これらの恩恵は実在するが、それを受けているのは、既に職に就いている経験豊富な労働者たちだ。新規参入する若者たちが直面しているのは、職の数そのものが減少している入り口なのだ。

恩恵は上部に集中し、代償は底辺に降りかかっている。

4. モデルは強化される一方、その訓練方法を明かす企業は減少

この報告書の中で最も引用が少ないが、おそらく最も重要な一組の数字がある。

「基盤モデル透明性インデックス（Foundation Model Transparency Index）」は、主要な AI 企業がモデルの訓練データ、計算資源、能力の限界、リスク、利用方針をどの程度開示しているかを測る指標だ。昨年の平均スコアは 58 点だったが、今年は 40 点に低下した。

報告書の結論はさらに直接的だ。「透明性が最も低いモデル群に、往々にして能力が最強のモデルが含まれている」。

AI モデルの透明性スコア分布 — 人工分析による開放性指数は、重み付けされた自由アクセスとライセンスの度合い、訓練方法、訓練前後のデータの透明性に基づき、AI モデルに 0 から 100 のスコアを付与する。主要モデルのスコアは低く、その多くは 100 点満点中 2 から 16 点の範囲にある（図 3.8.1 参照）。

これは興味深い逆転現象だ。AI の能力は加速度的に進化しているというのに、一般市民がその能力を理解・審査・監視するために必要な情報は、体系的に減少している。大規模モデルの訓練データが何か、どれだけの計算能力が消費されたか、既知の限界は何か――能力の向上に伴って関心が高まるべきこれらの問いが、能力の向上とともに、より不透明になっているのだ。

一般市民の信頼に関する数字もこれを裏付けている。世界規模の調査において、自国政府が AI を効果的に規制できると信頼すると答えた米国人は 31% のみで、調査対象国中 2 番目に低かった（中国は 27% で最下位）。これに対し、EU の数字は 53% と、明確な開きがある。

その一方で、Z 世代（Gen Z）の AI に対する感情に変化が見られる。彼らは生成 AI の初期の熱心な支持者だったが、最新の調査データでは、この層における不安や怒りの上昇が示されている。ある研究者は TechCrunch の取材に対し、「AI のリーダーたち自身が『何もしなければ、多くの人が悲惨な目にあう』と言いながら、なぜ一般市民が不安を感じるのかと不思議がっている」と率直に語っている。

米国の高校生・大学生の 5 人中 4 人が学業課題に AI を利用している一方、学校に明確な AI 利用ポリシーがあると答えた教員は 6% のみにとどまっている。能力が先行し、制度が後れを取り、その狭間で毎日 AI を利用する数億人の一般人が取り残されている形だ。

5. モデル 1 つの訓練は、車 1 万 7000 台が 1 年間に排出する CO2 に相当

AI の能力が加速する一方、その代償もまた加速している。ただし、その代償の多くは目に見えない。

報告書によれば、xAI の「Grok 4」を訓練する過程で排出された CO2 換算量は約 7 万 2800 トンと推計されている。これは、自動車 1 万 7000 台が 1 年間走行した場合の温室効果ガス排出量に相当する。なお、Epoch AI による独立した推計では、この数字はさらに大きく、約 14 万トンに達するとされている。

比較のため参照すると、OpenAI の「GPT-4」の訓練時の排出量は約 5184 トン、Meta の「Llama 3.1 405B」は約 8930 トンだ。GPT-4 から Grok 4 へ、わずか 2 年足らずで、1 回の訓練あたりの炭素排出量は 10 倍以上に急増している。

推論（利用時）における消費も蓄積している。GPT-4o の 1 年間の推論に伴う水使用量（データセンターのサーバー冷却や水力発電に使用）は、推計で 1200 万人分以上の年間飲料水需要に相当する可能性がある。世界の AI データセンターの総電力容量は 29.6GW に達し、これはニューヨーク州全体のピーク時電力使用量、あるいはスイスやオーストリアの国家全体の電力使用量に匹敵する規模だ。

エネルギー消費の増加と歩調を合わせるように、計算資源の集中も進んでいる。NVIDIA 製 GPU は世界の AI 計算資源の 60% 以上を占め、世界の AI 計算資源は 2022 年以降、毎年 3.3 倍に増加。2021 年比では既に 30 倍の規模となっている。AI システム全体の物理的基盤は、ごく少数のハードウェア供給企業とハイパースケールのクラウド事業者へと急速に集約されつつある。

これらのコストは、AI 製品の価格タグにも、生産性向上の統計数字にも現れてこない。しかし、それらは実在し、大気、地下水、そして送電網へと分散して負担されているのだ。

結びに

報告書のある詳細な記述が、本稿全体の注釈となり得るだろう。

AI は数学オリンピックの問題を解くことができるが、依然としてアナログ時計の針を安定して読み取ることはできない。

この不均衡さは AI のバグではなく、現段階における特徴だ。ある次元の能力は人間が直感的に検証できる範囲を遥かに超えているが、別の次元では未だに這うような進歩しかない。そして私たちは、この二つの曲線が共に急速に移動する瞬間、つまり「高速な能力の拡大」と「ガバナンス・信頼・透明性の後退」が同時に進行する時代に生きている。

スタンフォード大学の研究者らは報告書の序文で、今年の報告書は「AI に何ができるか」と「私たちがそれを管理する準備ができているか」の間の溝が広がっていることを浮き彫りにしたと記している。この報告書自体にできるのは、データを以てその溝を目に見える形にすることだ。

その溝の向こうで何が起こるかは、また別の問題である。

END