Google 正式官宣:AI 寫程式成功率從 28% 飆升至 96%!秘密武器竟是一個資料夾,上下文消耗暴降 90%

Google 正式官宣:AI 寫程式成功率從 28% 飆升至 96%!秘密武器竟是一個資料夾,上下文消耗暴降 90%

導讀

【導讀】Google 在一週內將「Agent Skills」規範一口氣整合進 Gemini API、ADK 以及 Android Studio 三大產品線。官方數據顯示,安裝技能包後,Gemini 3.1 Pro 的程式碼生成成功率從28.2% 飆升至 96.6%,同時基礎上下文佔用直降90%。這場「為 AI 安裝外掛」的運動,正在重新定義開發者與 AI Agent 的協作模式。

你的 AI 助手,可能正用兩年前的 SDK 幫你寫程式

想像一個場景:你請 AI 助手幫你撰寫一段呼叫 Gemini API 的程式碼。它信心滿滿地給了你一個版本——語法完美、邏輯清晰,但使用的卻是半年前就已廢棄的舊介面

這並非假設,而是每天都在發生的事。

Google Developers Blog 在 3 月 25 日發布的一篇文章中,直白地指出了這個問題:

"Large language models (LLMs) have fixed knowledge, being trained at a specific point in time."

「大型語言模型(LLM)的知識是『定格』的,它們是在特定時間點完成訓練的。」

LLM 的知識有截止日期,但軟體工程的實踐變化速度是以「週」為單位計算。SDK 持續更新、API 不斷迭代、最佳實踐持續演化——你的 AI 助手卻還活在訓練資料的時間膠囊裡。

這就是所謂的Knowledge Gap(知識鴻溝)

而 Google 提出的解法,既不是重新訓練模型,也不是搞 RAG(檢索增強生成),而是——為 AI 安裝一個「技能包」。

一個資料夾,就是一個「技能」

這個技能包叫做Agent Skills——其核心思想簡單到令人意外:將領域知識打包成一個資料夾,讓 AI 按需加載。

在一個資料夾中放置一個 `SKILL.md` 檔案,YAML 標頭寫入元數據,Markdown 正文撰寫具體指令。就這麼簡單。

但 Google 真正想強調的重點,在於這個技能包的加載方式

「漸進式揭露」:Google 的 Context Economy(上下文經濟學)

Google for Developers 官方帳號在 4 月 1 日發布的貼文中,將 Agent Skills 的價值總結為一句話:

"By using progressive disclosure, you can load domain expertise only when needed. This can reduce baseline context usage by 90%."

「透過漸進式揭露,只在需要時加載領域知識,可將基礎上下文佔用降低 90%。」

Google for Developers 官方推文

▲ Google for Developers 官方推文:推廣 Agent Skills 的三層架構與 90% 上下文縮減(獲得 170 多個讚)

三層架構,層層遞進:

  • L1 元數據(約 100 tokens/技能):只告訴 Agent「我有什麼技能」——相當於菜單
  • L2 技能正文(小於 5000 tokens):Agent 覺得需要時才加載完整指令——相當於點菜
  • L3 外部資源(按需拉取):腳本、文件、程式碼範例——相當於上菜

傳統做法是什麼?把所有知識一股腦塞進 system prompt——相當於每次吃飯都要把整個菜單背誦一遍。

Google ADK 的官方指南算了一筆帳:假設你有 10 個技能,傳統方式每次呼叫要塞入 10000 tokens 的上下文;採用 Agent Skills 的 L1 菜單方式,僅需1000 tokens

Token 就是錢。省下的 90%,就是省下的 90% 成本。

28.2% → 96.6%:用數據說話

光講架構不夠震撼。Google 釋出的評測數據才是真正的殺手鐧。

Google 使用117 道編程題(涵蓋 Python 和 TypeScript)測試了一件事:給 Gemini 安裝 Agent Skills 後,程式碼生成的正確率能提升多少?

結果如下:

模型安裝 Skill 後裸跑(未安裝)
Gemini 3.1 Pro Preview96.6%28.2%
Gemini 3 Flash Preview87.2%6.8%
Gemini 3.1 Flash Lite84.6%5.1%
Gemini 2.5 Flash52.1%0.0%

高互動數據總結推文

▲ @ai_for_success 的總結推文引爆討論:近 900 個讚,12 萬人圍觀

Gemini 3.1 Pro 從 28% 提升到 96%,提升了將近 3.5 倍。

Gemini 3 Flash 從 6.8% 提升到 87%,提升了近 13 倍。

更誇張的是分類數據:在 Agentic 任務類別上達到了100%,Document processing(文件處理)也是100%,SDK usage(SDK 使用)達到94.6%

這組數字瞬間傳遍了 Twitter(X)。

質疑與期待並存

▲ @TeksEdge 提出質疑:內部 benchmark 表現亮眼,但在 SkillsBench 上會怎樣?

有人興奮,也有人保持冷靜。@TeksEdge 直接提出了一個好問題:內部測試成績好看,但放到獨立 benchmark 上呢?

這種質疑是健康的——自己出題自己考,說服力天然打折。但即便打折,從 0% 到 52%(Gemini 2.5 Flash),從 6.8% 到 87%(Gemini 3 Flash),這種量級的提升很難用「刷分」來解釋。

寫進官方文件、IDE、SDK——Google 是認真的

如果只是發篇部落格、放個 demo 倉庫,那叫「試水」。

但 Google 這次的動作遠不止如此。

第一步:寫進 Android Studio。

Android Developer 官方文件直接開闢了一頁《Extend Agent Mode with skills》,將 Agent Skills 與 IDE 的 Agent Mode 綁定:

"Skills let you enhance Agent Mode's capabilities with specialized expertise and custom workflows. They are based on the Agent Skills open standard."

「技能功能允許你利用專業知識和自定義工作流來增強代理模式的能力。它們基於 Agent Skills 開放標準。」

Android Studio 開發者傳播

▲ @github_skydoves 分享 Android Studio Agent Mode 技能文件,獲得 62 次轉發

注意用詞:open standard(開放標準)。這不是 Google 的私有格式,而是寫進官方文件的開放規範。

第二步:整合進 ADK(Agent Development Kit)。

ADK 直接提供了三個原生 API——`list_skills`(L1 菜單)、`load_skill`(L2 正文)、`load_skill_resource`(L3 資源),四種技能模式從簡單到複雜全覆蓋。

第三步:開源示例倉庫。一行 `npx skills add` 就能給 Agent 安裝技能,像安裝 npm 包一樣自然。

開發者圈的真實反應

Twitter 上的討論非常有意思。

最火熱的聲音是震驚於數據

媒體轉述

▲ @_techibee:「AI 並不笨……它只是過時了。Agent Skills 就是修復方案——無需重訓!」

"AI isn't dumb... It's just outdated. Google's Agent Skills fixes: Learns new tools instantly, Uses latest docs & SDKs, No retraining needed. Basically... AI that upgrades itself on the fly."

「AI 並不笨……它只是過時了。Google 的 Agent Skills 修復了這個問題:即時學習新工具、使用最新文件和 SDK、無需重新訓練。簡單說……就是能即時自我升級的 AI。」

也有人將 Agent Skills 與 MCP(Model Context Protocol)組合起來觀察:

Agent Skills + MCP 組合

▲ @Anandzork 把 Agent Skills 與 Docs MCP 結合,給出安裝指南和性能對比圖

@Anandzork 給出了一張非常直觀的對比圖:裸跑 7.7%,加 MCP 後 72.4%,加 Skill 後 82.9%,兩者都加直接飆升到 96.3%。同時他還強調:「Token 消耗降了 63%。」

當 AI Agent 都能即時更新知識了,還在手動查文件的開發者該怎麼辦?這個問題,越來越多人開始認真思考了。

但別急著吹——Google 自己也在潑冷水

Google 的部落格文章裡其實藏了幾個不小的「但是」:

Skills 未必永遠比 AGENTS.md 強——Google 自己引用了 Vercel 的研究,承認某些場景下直接寫 AGENTS.md 可能更有效。
更新機制還沒跑通——安裝了 skill 後如果 SDK 升級了,skill 不會自動跟著升,workspace 裡可能堆滿過時技能反而誤導 Agent。
腳本執行還不支援——ADK 文件明確標註 Experimental,L3 層資源目前只能看不能跑。

更現實的是,GitHub Discussion 裡有開發者提問 ADK 到底支不支援 Agent Skills standard,得到的回覆是:「目前沒有明確計畫,但團隊還在評估。」

一邊寫進官方文件大力推廣,一邊核心 SDK 的支援還在「評估」?大公司推新規範,向來都是這樣——先造勢,再補齊。

真正的信號:從「提示詞工程」到「技能分發」

拋開數據和產品線的細節,這件事最值得關注的信號是什麼?

Google 正在把「給 AI 塞知識」從一門手藝變成一套基礎設施。

過去:你是一個高級 prompt engineer,花三天調出一版完美的 system prompt,能讓 GPT 寫出靠譜的 API 呼叫程式碼。這是你的核心競爭力。

現在:SDK 維護者直接發一個 `SKILL.md` 檔案,所有 Agent 自動獲得最新的 API 知識。你三天的手藝活,被一行 `npx skills add` 替代了。

權威上下文與準確率提升

▲ @iRomin:「Native Agent Skills 透過將模型建立在權威上下文中來優化 DX(開發者體驗)」

這就是為什麼 Agent Skills 規範的核心維護者不是 Google——而是 Anthropic

沒錯,這個規範最早來自 Anthropic 的 Claude Code,於 2025 年底作為開放標準發布。Google 是最大的「採用者」之一,但 Microsoft、OpenAI、GitHub Copilot、Cursor 等26+ 平台都在跟進。

當所有大廠都在同一個檔案格式上趨同時,這已經不單純是一個功能發布了。

這是一個生態位的重新定義:誰寫 SKILL.md,誰就掌握了 AI Agent 的知識入口。

SDK 維護者、框架作者、文件團隊——這些過去「寫給人看」的角色,現在要開始「寫給 AI 看」

而且要按規範寫。


— END —

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.