AI模型燒掉的Token,對應多少GDP?AI的經濟貢獻現在有數了

圖片

機器之心發布

本文作者為摩爾執行緒天使投資人、中國初代AI投資人王捷。他於 2025 年 8 月和 12 月分別發表了 https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650988409&idx=1&sn=4cc6a304760b4e3899c4465d776b66f9&scene=21#wechat_redirecthttps://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651009932&idx=1&sn=bdf055d3093386b8a6de3442021b39c6&scene=21#wechat_redirect 兩篇文章,對即將到來的 AI 經濟進行了展望和解读。本篇是他近期的第三篇文章,是就如何從經濟生產力的角度評價 AI 大模型,提出的一個思路。

AI生產能力函數:

從經濟生產力的角度評估AI模型

Measuring Model Capability as Economic Productivity: A Production Capacity Function for Artificial Intelligence

1. 引言

1.1 背景

  • AI 大模型已經從技術、產品走向全面影響經濟和社會,需要一個指標,來評價AI對於真實經濟任務的工作能力。
  • 現有主流評測基準包括MMLU、BIG-bench、SWE-Bench、WebArena、GAIA、AgentBench、MiniWoB等,這些基準被廣泛用於衡量模型在知識理解、推理、程式設計等任務中的表現。
  • 但現有評測基準:
    • 任務同質性假設:所有任務對總評分的貢獻相同,未區分任務價值差異;
    • 未含人類和組織的接受度;
    • 忽略推理成本:Token 消耗未納入能力衡量,僅作為附加指標;
    • 不能反映經濟產出,因此宏觀統計(GDP、TFP)也 無法分辨 AI 的真實邊際貢獻。
  • 關鍵缺口: 缺乏一個連接“AI模型→生產能力→生產率→宏觀經濟”的表達函數。

1.2 研究問題

  • 如何以統一、可計量的方式衡量 AI對經濟產出“真實生產能力”?
  • 我們提出一個 以任務為基本單元以 token 為投入/計量基礎以 GDP 為產出 的 AI 生產能力函數,定義為 模型給定任務空間社會接受 約束下,將 計算資源 (token)穩定地 轉化為經濟價值能力上限 (capacity),明確包括以下要素:
    • 通過引入“經濟圖靈測試”,將任務集中的任務從僅體現“技術正確性/feasibility”,變為也體現“在真實經濟環境中被人類接受/desirability”;
    • 模型能夠成功完成的 任務的經濟價值
    • 成功完成任務的機率
    • 完成任務所消耗的 推理資源token )。
  • 希望回答以下問題:
    • 一個 AI 模型 每消耗一個token,能創造多少經濟價值?即 GDP/token 問題。
    • 可否將 AI 模型能力從“在若干 benchmark 上的點狀表現(pointwise performance )”,轉化為“在整個經濟任務空間中的價值加權期望產出密度(task-space integral )”?
    • 不同模型、不同經濟任務、不同國家 擁有的AI能力、AI大模型的 不同發展階段 之間 如何可比

2. 當前對模型能力評估方案的局限性

2.1 AI 能力評測與 Benchmark

  • 傳統 benchmark(如 MMLU、BIG-bench、SWE-Bench、AgentBench)只測成功率或通過率;
  • 無法回答“單位 AI 投入 → 經濟產出”;
  • 缺乏“經濟系統接受性”的內生處理。

2.2 引入 AI 生產能力函數 𝐶(𝑀)

  • 𝐶(𝑀) 同時考慮:
    • 任務經濟價值
    • 任務異質性
    • 成功機率(技術能力)
    • 資源消耗(成本約束)
  • 𝐶(𝑀) 將任務經濟價值、任務異質性、成功機率、資源消耗統一在一個框架中,是從技術能力到經濟生產力的度量映射。

3. 基本概念與定義

3.1 定義與核心函數

模型能力被定義為模型在其 可被經濟接受的任務集合 上,單位 token 所能穩定地產生任務成果的期望經濟價值。

圖片

3.2 分子:經濟產出

  • 含義:模型 (m) 在可接受任務集上 可實現的總經濟價值 ,這些經濟價值來自於統計。
  • 關鍵性質:任務集中的任務符合兩個條件
    • 該 AI 模型 可以完成 該類任務(解決“能不能做”的問題);
    • 該 AI 模型完成該類任務的結果通過了“經濟圖靈測試”(解決“做得好不好”、“人類是否接受”的問題)。
  • 任務價值異質時 ,公式 自動對高價值任務賦權。

3.3 分母: token 投入

  • 分母是完成該 j 項任務 消耗的 token 數的加總 ,以百萬 token 計。其中單任務 token 消耗定義:

圖片

  • 單任務 token 消耗=完成單項任務的 單次平均 token 消耗 / 該模型對該任務的 成功完成率 ,其中完成單項任務的單次平均 token 消耗=完成該項任務的總次數所消耗的總 token 數 / 總次數;這些數據來自統計。
  • 單任務 token 消耗內生地反映模型的 成本效率
  • 成功率內生地反映:
    • 能力水平
    • 穩定性
    • 復現性

3.4 任務(Task)

  • 人的工作 是以 單個勞動力 作為最小的執行單元, AI完成工作 是以“ 任務 ”為最小執行單元。
  • 對 AI 而言,任務是一個被明確形式化的目標實例,它定義了期望結果、行動空間、約束條件與完成判定,使 Agent 能夠將開放式環境問題轉化為可規劃、可執行、可評估的決策過程。

3.5 任務集合 (J_m)

  • 針對模型 (m) 定義的可執行任務集;需要滿足兩個准入條件:

1. 技術可完成性

2. 通過經濟圖靈測試

  • 任務集的構建 :我們需要將當前經濟活動中的所有任務,構建為適配Agent工作方式的任務集,並基於此展開任務的統計工作。

3.6 經濟圖靈測試(ETT, Economic Turing Test)

  • 定義:如果模型完成任務的輸出在 真實經濟環境被人類接受 ,則視為成功;否則視為失敗;
  • 取值為 [0, 1] ,即“不通過”為 0 ,“通過”為 1;
  • 與傳統圖靈測試的差異;
  • 在生產函數中的角色:經濟圖靈測試等價於一個 制度與偏好約束(institutional and preference constraint) ,決定哪些 AI 產出可以被計入 GDP。

3.7 任務經濟價值 (V_j)

  • 任務經濟價值統計方式包括:
    • 人類工作成本 :人類完成同一個任務所需的工作成本/工資;
    • 市場交易價格 :如果該任務是可在市場上交易的,市場交易價格是多少;
    • 影子價格 :對沒有市場價格但會影響社會福利、風險或長期產出的任務,估計其隱含邊際價值。
  • 這些數據來自統計。

3.8 量綱與解釋

  • 單位:貨幣 / 百萬 token。

4. 與傳統生產函數的關係

4.1 AI 作為新型生產要素

  • AI = 以 token 表達的任務執行能力 ;是一種以計算資源驅動、以任務執行能力表現、可在數字環境中規模複製的 生產性要素;
  • 在宏觀經濟領域,這是 Model-Level AI Capability in Macroeconomics ;可在宏觀層面衡量 AI 對經濟總產出的貢獻;
  • 在經濟增長領域,這是 Task-Based AI Capability Models for Economic Growth.

4.2 嵌入傳統生產函數

  • AI可以被視為一種“ 可資本化複製的任務執行能力 ”,其經濟屬性 既具有勞動的任務完成功能又具有資本的規模複製特徵;
  • 在 AI 經濟階段,任務執行能力以 token 表達,這意味著 token 作為 生產函數的中間變數 ,是 可精確計量的代理變數;
  • 與 TFP 的關係:可能導致傳統生產函數中的 TFP 從殘差變為可解釋, AI 生產力是可解釋的 TFP 分量。

4.3 與勞動生產率的比較

  • 在工業經濟中,勞動生產率通常以“單位勞動投入創造的產出”表示,典型形式為 GDP/工時。其直觀含義是:在既定技術、資本與組織條件下,勞動每單位時間可以實現多少產出;
  • 本文提出的 AI 生產能力函數在結構上與之具有清晰對應關係:它以“單位 token 所能穩定轉化的經濟價值”刻畫 AI 的生產能力,典型口徑為 GDP/token (或 GDP/百萬 token); GDP/token 的形式 可以進入更一般的生產率分析框架。

5. 應用與擴展

前文給出的 AI 生產能力函數 𝐶(𝑀) 主要完成兩個任務:其一,給出模型能力作為經濟生產力的形式化定義;其二,說明該定義如何與宏觀生產分析建立聯繫。在此基礎上,本節進一步討論該框架的應用與擴展方向。

5.1 模型比較

  • 不同模型 之間的 AI 生產能力排序 :對不同模型進行“單位 token 經濟價值產出能力”的排序;
  • 同一模型不同版本 的工作能力比較:更清楚地區分“技術分數提升”與“經濟生產能力提升”是否同步。

5.2 時間維度比較

  • 不同階段 的模型能力比較, 技術進步動態刻畫
    • 成本下降”:單次平均token 消耗下降,即推理效率改善、工具呼叫更有效或策略更緊湊;
    • 質量提升”:單位任務的成功機率提升,即模型在既有任務上的能力水平、穩定性或復現性增強;
    • 能力邊界擴張”:任務集合 (J_m) 擴張,即模型能夠覆蓋更多任務,尤其是更高價值或更複雜的任務。

5.3 成本結構分析

  • 𝐶(𝑀) 可用於分析 推理端的商品化commoditization )過程:如果多個模型在某些任務集上的成功率趨近,模型間競爭往往從“能不能做”轉向“誰能更低成本、更穩定地做”,本文的生產能力函數可以提供理解模型服務價格競爭、推理優化策略的統一視角。
  • 𝐶(𝑀) 為分析 能源與算力約束 提供了中間變數:可將 𝐶(𝑀) 與“每 token 的能耗和算力成本”結合,構建從 資源約束模型能力經濟產出 的多層映射。

5.4 產業與國家層面

  • 產業任務結構差異:
    • 某些行業 (如軟體開發、數字行銷、線上客服、標準化文書處理)具有較高的任務形式化程度與數字化環境相容性,因而 更容易形成穩定的(J_m) 並實現較高的 𝐶(𝑀) 應用收益
    • 另一些行業 (如高風險醫療決策、複雜現場作業、強監管流程)則可能因 ETT約束嚴格、任務價值評估複雜執行環境非數字化 而限制AI 生產能力的釋放。
  • 國家級 AI 生產能力 ”, 不同經濟體 的 AI 生產能力對比:
    • “國家級AI 生產能力”是該經濟體基於其可獲得AI基礎模型、任務數字化程度、組織採用能力、制度接受邊界與基礎設施條件,對AI生產能力的 綜合實現水平;
    • 本文框架的意義在於,為這種“模型能力—任務結構—制度環境—經濟產出”的分層分析提供統一的概念與度量介面。

5.5 政策與投資導向

本文提出的 AI 生產能力函數可以為 AI 模型研發投入模型部署選擇AI 投入產出核算公共採購經濟政策投資分析 制定提供量化工具,是連接 技術評估部署決策產業分析宏觀政策通用度量語言

  • 在 AI 快速擴散的階段, 僅依賴 benchmark 排名進行決策 ,容易導致資源配置偏向“ 技術表現最優 ”而非“ 經濟生產率最優 ”。
  • 對於企業使用者而言,模型選擇不應僅依據公開評測名次,而應基於目標任務集合下的 𝐶(𝑀) 或其近似估計值進行比較,從而將採購決策與業務價值創造能力對齊。
  • AI 投入產出核算公共採購 中, 𝐶(𝑀) 提供了一種更具可稽核性的量化框架。
  • 產業政策 層面,政策制定者可利用該框架識別哪些產業的任務結構更適合 AI 先行滲透,哪些制度約束正在限制高價值任務進入 (J_m) ,以及哪些基礎設施瓶頸(能源、算力、數據中心、組織數字化)正在制約 AI 生產能力轉化為實際產出。
  • 投資分析 中, 𝐶(𝑀) 及其構成項也可為判斷 AI 相關企業或行業的競爭優勢提供補充視角。

6. 結論

  • 本文 提出了一種基於經濟生產力的 模型能力度量方法 ,即在給定任務空間與社會接受約束下,模型將計算資源(token)穩定地轉化為經濟價值的能力上限(capacity)

圖片

  • 傳統 benchmark 的成功率排名無法準確反映模型的經濟生產力 ;本文提供了可操作的測量框架,將現有 benchmark 數據轉化為經濟生產力度量;
  • 從 pointwise performance 轉向 task-space integral ;現有 benchmark 衡量的是模型在 給定任務點上的正確率 ;本文衡量的是模型在 整個經濟任務空間 上的 價值加權期望產出密度。
  • 本文提出的 模型能力定義 將任務經濟價值、任務異質性、成功機率和資源消耗都納入考慮,從而將AI模型的能力從技術評測語境中的“性能表現”,推進到經濟分析語境中的“生產能力”與“生產率”度量。
  • 本文為 企業研究機構政策制定者 提供了一個 衡量、比較與優化 AI 生產力操作框架 ,使得 AI 生產力可觀測、可計量、可比較,為 benchmark 設計模型研發模型比較技術進步分析AI成本分析產業和國家層面 AI 能力評估模型部署資源分配、經濟政策、宏觀生產力測算 提供了理論與實證基礎及新的量化工具;也為 AI 經濟學研究提供了一個連接微觀模型評估與宏觀生產率分析的 橋樑變數 ,是一個可進一步細化、實證化與制度化的分析基礎。
  • 隨著 AI 在經濟體系中的進一步滲透,圍繞 𝐶(𝑀) 的數據化、標準化與實證化工作,有望成為理解 AI 真實經濟貢獻 及其 階段演進 的重要基礎。
  • 本文應被理解為一個 基礎性測度框架 ,而非已完成的最終經驗體系。其進一步落地仍 依賴若干關鍵工作任務集合的系統構建經濟圖靈測試判定機制的標準化真實部署數據的持續統計 。這些問題並不削弱本文框架的理論意義,反而說明其核心價值正在於提供一個可組織後續測量工作的統一形式。與其在理論上等待一個完美而封閉的 AI 經濟指標,不如先建立一個可迭代、可擴展、可實證化的能力度量框架,使模型能力能夠在經濟分析中被逐步觀測、比較與檢驗。

作者簡介

作者王捷,中國初代 AI 投資人,完整經歷了行動互聯網各個發展和投資階段, 2017 年以來主要從事 AI 行業投資,投資了摩爾執行緒、比亞迪半導體、萬國數據、京東科技、開思時代、奇安信、明略科技等公司。作者郵箱 jie_wang7@sina.com,微信如下,歡迎交流,添加請說明工作/學習機構、職務資訊。

圖片

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導: liyazhou@jiqizhixin.com


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.