能解奧數，不會看鐘：史丹佛 2026 年 AI 報告的 15 個判斷

4 月 13 日，史丹佛大學人本 AI 研究所（HAI）發布了 2026 年度 AI Index 報告。這份多達 400 多頁的報告，涵蓋技術能力、投資格局、就業影響及公眾認知，是該行業迄今為止最完整的第三方年度審計。

這份報告自 2017 年起連續發布，今年的結論可以用一句話概括：AI 的能力正以從未有過的速度超越一切——超越監管框架、超越公眾信任、超越教育體系，甚至超越了 AI 公司自身對資訊透明度的意願。

以下是從報告中提煉的核心內容。

原文連結：https://hai.stanford.edu/ai-index/2026-ai-index-report

一、科學能解奧數，不會看鐘

先從一個細節說起。

今年的報告中有一張圖，橫軸是時間，縱軸是 AI 在各類任務上相對於人類的表現。圖上有一條線幾乎是垂直上升的：程式碼能力。SWE-bench Verified——衡量 AI 自主完成真實軟體工程任務的標準測試——在一年之內從 60% 跳到了近 100%。同期，AI 代理處理現實任務的成功率從 20% 躍升至 77.3%，網路安全問題的解題率從 15% 飆到 93%。

過去一年，Terminal-Bench 2.0 的準確率顯著提升，從 2025 年 2 月的 20% 提升到 2026 年初的 77.3%（見圖 2.5.2）。

「人類最後一考」（Humanity's Last Exam）是一套由全球近千名領域專家共同設計的考題，專門為了難倒 AI 而生，涵蓋物理、數學、歷史、法律等几乎所有高難度學科。2025 年時，排名第一的模型只能答對 8.8% 的題目。到今天，前沿模型的得分已經超過 50%。

2024 年至 2025 年間，HLE 模型準確率提高了 30 個百分點（見圖 2.4.4）。一年內，準確率從不到 10% 躍升到 38.3%。

這不是線性增長，是躍遷。

但同一份報告裡，還有另一條線——機器人完成真實家務任務的成功率，摺疊衣服、洗碗這類事，至今只有 12%。AI 仍然不能穩定地看懂類比時鐘。生成連貫影片仍然困難，多步驟規劃仍然出錯，某些專家級學術考試仍然答不對。

Gemini Deep Think 在 2025 年 IMO 中以自然語言進行首發工作，在 4.5 小時的時間限制內獲得 35 分（金），高於 2024 年獲得的 28 分銀獎。在 ClockBench 上，頂級型號能正確讀取類比時鐘的 50.1%，而人類則為 90.1%。

能力的分布是不均勻的——某些維度已經超越了人類可以驗證的範圍，另一些地方仍在爬行。這是 2026 年 AI 的真實狀態，也是接下來所有問題的底色。

二、美國是中國投資額的 23 倍，但 AI 人才流入已跌了 89%

2025 年，全球 AI 私人投資達到 3,447 億美元，同比增長 127.5%。企業層面的 AI 投資總額達到 5,817 億美元，一年翻了一倍多。

美國在這場軍備競賽裡出手最猛。2025 年，美國 AI 投資額 2,859 億美元，是排名第二的中國（124 億美元）的 23 倍。這個差距是壓倒性的。

但同一份報告裡，另一組數字指向了完全相反的方向。

2017 年到 2026 年，AI 領域頂尖學者移居美國的數量下降了 89%。僅在過去一年，這一數字又跌了 80%。

兩組數字放在一起的含義很清楚：美國在 AI 上砸的錢越來越多，但能用這些錢招到的最頂尖的人越來越少。錢還在湧入，但它的邊際價值正在被人才流失侵蝕。

中國的投資邏輯與此不同。報告指出，單純以私人投資額比較，會系統性地低估中國投入 AI 的資本體量。中國政府通過「政府引導基金」這一機制，自 2000 年以來在包括 AI 在內的各領域累計部署了超過 9,120 億美元。這筆錢不走市場化管道，不出現在私人投資數據裡，但它實實在在地存在。

在模型數量上，美國 2025 年發布了 50 個「值得關注」的模型，中國大約 30 個，差距在縮小。在工業機器人安裝量上，中國 2024 年安裝了 29.5 萬台，美國 3.42 萬台，差距是 8.6 倍。中美在 AI 上走的是兩條平行賽道，正面交鋒的地方只是其中一部分。

三、22 歲的工程師已經感受到了，CEO 還在說 AI 只是工具

就業影響的數據今年第一次清晰到無法繞開。

22 到 25 歲的軟體開發者，從 2024 年以來就業人數下降了近 20%。同一時期，26 歲以上的同行就業人數基本持平甚至小幅增長。這不是整個軟體行業在萎縮——是 AI 衝擊從底部開始，精準地切掉了入門崗位。

自 2022 年以來，最年輕工人（22 至 25 歲）的就業人數有所下降，儘管年長年齡段的員工人數持續增長（見圖 4.4.29）。到 2025 年 9 月，22 至 25 歲軟體開發者的就業人數較 2022 年峰值下降了近 20%。

客服領域同樣出現了類似的模式：初級崗位在收縮，資深崗位暫時安全。

三分之一的企業高層主管在麥肯錫的調查中表示，預計未來一年將進一步縮減員工規模，尤其集中在服務業、供應鏈和軟體工程。這是關於未來的計劃，不是已經發生的事。已經發生的是：年輕人先感受到了。

報告的研究者同時提出了一個重要的限定：就業數據受到宏觀經濟的干擾，無法把 AI 的影響完全分離出來。但他們也指出了一個反常的現象——AI 暴露程度低的職業，失業率的上升反而高於 AI 暴露程度高的職業。這與「AI 直接替代」的簡單敘事不符，背後可能有更複雜的勞動力市場重構正在發生。

AI 帶來的生產力提升數字，報告同樣給出了：客服領域提升 14%，軟體開發領域提升 26%。這些增益是真實的，但享受這些增益的，是已經在崗的、有經驗的工人。新進入市場的年輕人，面對的是崗位數量本身正在減少的入口。

增益集中在上面，代價落在了底部。

四、模型越來越強，告訴你它是怎麼訓練出來的公司越來越少

有一組數字在這份報告裡是最少被引用的，但可能是最重要的。

基礎模型透明度指數（Foundation Model Transparency Index），衡量主要 AI 公司對其模型訓練數據、計算資源、能力邊界、風險及使用政策的揭露程度。這個指標去年的平均分是 58 分，今年跌到了 40 分。

報告的結論更直接：在透明度最低的模型裡，往往是能力最強的那批。

人工分析開放性指數根據權重的自由存取和授權程度，以及訓練方法和訓練前後數據的透明度，對 AI 模型進行 0 到 100 的評分。領先模型的得分較低，大多數在 100 分中的 2 到 16 分之間（見圖 3.8.1）。

這是一個有意思的反轉。AI 能力在加速進化，但公眾能用來理解、審查、監督這些能力的資訊，在系統性減少。大型模型的訓練數據是什麼、用了多少算力、有哪些已知局限——這些本來應該隨著能力增強而更受關注的問題，正在隨著能力增強而變得更不透明。

公眾信任的數字也在印證這件事。全球調查中，只有 31% 的美國人表示信任本國政府能有效監管 AI，是所有被調查國家中倒數第二（中國是 27%，墊底）。歐盟的數字是 53%，差距明顯。

與此同時，Z 世代對 AI 的情緒正在發生轉變。他們曾是生成式 AI 最早的熱情擁躉，現在的調查數據顯示這一人群的焦慮和憤怒在上升。TechCrunch 引用的一位研究者說得更直白：AI 領袖們自己都在說「如果什麼都不做，很多人會很慘」，然後奇怪為什麼公眾會焦慮。

4/5 的美國高中和大學生在用 AI 完成學業任務，但只有 6% 的教師表示學校有清晰的 AI 使用政策。能力跑在前面，框架跑在後面，中間的空白地帶是每天在使用 AI 的幾億個普通人。

五、訓練一個模型，等於 1.7 萬輛車跑一年

AI 的能力在加速，代價也在加速。只是這個代價大部分是看不見的。

報告給出的數字：xAI 的 Grok 4，訓練產生的碳排放估計約為 7.28 萬噸 CO₂當量，相當於 1.7 萬輛汽車行駛一整年產生的溫室氣體。而 Epoch AI 的獨立估算認為這個數字更高，約為 14 萬噸。

作為對比，OpenAI 的 GPT-4 訓練排放約 5,184 噸，Meta 的 Llama 3.1 405B 約 8,930 噸。從 GPT-4 到 Grok 4，不到兩年，單次訓練的碳排放增加了超過 10 倍。

推論側的消耗同樣在積累。全年 GPT-4o 的推論水耗（用於冷卻數據中心服務器或水力發電），據估算可能超過 1,200 萬人全年的飲用水需求。全球 AI 數據中心的總電力容量達到 29.6GW，相當於整個紐約州的峰值用電量，也與瑞士或奧地利的全國用電量相當。

與能源消耗同步增長的，是算力的集中度。Nvidia 的 GPU 目前佔全球 AI 算力總量的 60% 以上，而全球 AI 算力自 2022 年以來每年增長 3.3 倍，累計已是 2021 年的 30 倍。整個 AI 系統的物理基礎，正在加速向少數幾家硬體供應商和超大規模雲服務商集中。

這些成本不會出現在 AI 產品的價格標籤上，也不會出現在生產力提升的統計數字裡。但它們是真實的，只是被分攤到了大氣、地下水和電網裡。

寫在最後

報告裡有一個細節，可以作為整篇的註腳。

AI 已經能解開數學奧林匹克競賽的題目，但仍然不能穩定地看懂類比時鐘。

這個不均勻性，不是 AI 的 bug，是這個階段的特徵。某些維度的能力已經超出了人類可以直覺驗證的範圍，另一些維度還在爬行。而我們正處在這兩條曲線都在快速移動的時刻——高速能力擴張，與治理、信任、透明度的同步滑落。

史丹佛的研究者在報告序言裡寫道：今年的報告揭示了「AI 能做什麼」與「我們準備好管理它沒有」之間的裂縫正在變寬。這份報告本身能做的，是用數據讓裂縫可見。

裂縫之後怎麼辦，是另一個問題。

END