圖片由AI生成
文丨曉靜
編輯丨徐青陽
台灣時間5月20日凌晨,Google執行長皮查伊在Google I/O 2026的舞台上算了一筆帳:Google的頭部大客戶每天可以處理約1兆個token,如果把其中80%的工作負載從其他前沿模型切換到Google新發表的Gemini 3.5 Flash,一年能省下超過10億美元。
2026年Google I/O大會的核心主軸仍然是Agent,從Agent平台(Antigravity)到消費者Agent(Spark),再到搜尋Agent,Google要把Agent打造成全棧能力。
在這場長達兩小時的主題演講中,Google發布了新一代Gemini 3.5系列模型、全模態世界模型Gemini Omni、第八代TPU雙晶片架構,以及從編碼工具升級為Agent管理平台的Antigravity 2.0。
同時,我們也看到了一條新的主線變得更加清晰:Agentic AI時代已經走向中場,前沿模型的核心戰場,也從比拼「誰最強最聰明」,轉向把Agent的運行成本壓到企業敢大規模部署的門檻以下。
01 Gemini 3.5 Flash:前沿智慧+極致速度+砍半的價格
Google這次發表了Gemini 3.5系列模型,打頭陣的是當天就上線的Gemini 3.5 Flash。
過去幾年,企業在使用生成式AI時一直面臨一個痛苦的抉擇。最能幹的模型,通常又大又慢,查詢成本也高。反過來,那些更快、更便宜的模型,往往得犧牲準確性。Gemini 3.5 Flash號稱要改變這種局面。
皮查伊將它描述為Google內部的「遊戲規則改變者」,用起來「令人難以置信的愉悅」。他給出了一個直觀的對比:Gemini 3.5 Flash的整體表現,全面超過了四五個月前還是Google頂級旗艦的Gemini 3.1 Pro。皮查伊的原話是:「Gemini 3.5 Flash比Gemini 3.1 Pro更好。它的性能能達到前沿模型的大約九成,速度快4倍,在Antigravity平台上甚至能快到12倍,而成本只有前者的三分之一到一半。」
在每秒輸出token數量上,Gemini 3.5 Flash是其他同類前沿模型的4倍。Google DeepMind技術長兼Google首席AI架構師卡武克庫奧盧補充說明,一個優化版在同樣品質下可以快到12倍,這個版本從美國當地時間5月19日起在Google的智慧代理開發平台Antigravity上開放使用。
在一系列高難度測試中,Gemini 3.5 Flash展現出了強大的智慧代理和程式編寫能力。它在Terminal-Bench 2.1測試中得分76.2%,在GDPval-AA中達到1656 Elo,在MCP Atlas中達到83.6%。多模態理解方面也很突出,CharXiv推理得分84.2%。
在第三方機構Artificial Analysis的智慧與速度指數圖上,Gemini 3.5 Flash佔據了右上角目前沒人能觸及到的位置。
用皮查伊的話說,這證明了「你不再需要在品質和速度之間二選一了」。
02 現場實機展示:複雜任務、多模態、可互動
大會上的幾個展示,直觀呈現了Gemini 3.5 Flash處理複雜任務的能力。
在其中一個展示中,Gemini 3.5 Flash被要求根據動態標準,自動重新命名和分類一堆亂七八糟的資產檔案。這不是簡單的關鍵字匹配,模型需要先讀取每個檔案的內容,理解實際用途,再按照預設的分類邏輯歸檔。整個過程涉及多個判斷和執行步驟,Gemini 3.5 Flash幾秒鐘就搞定了。
這套能力由升級後的Antigravity平台驅動,背後是多個協作的子智慧代理在並行處理。過去,這類工作可能需要開發者花上好幾天來寫腳本,或者交給審計員花上數週來手動整理。
另一個展示展現了Gemini 3.5 Flash的多模態生成能力。在AI Studio上,研究人員上傳了一篇學術論文,模型讀懂論文內容後,直接生成了一段解釋核心概念的互動式動畫。
圖表不再是靜態的,觀看者可以拖曳參數、切換視角,觀察數據之間的動態關係。這種從文字到互動式視覺內容的直接轉換,靠的是Gemini 3底層的多模態基礎能力。
搜尋方面的展示也同樣令人印象深刻。在一個案例中,用戶在搜尋框裡輸入關於Gyroid圖案的問題。利用Gemini 3.5 Flash增強的智慧代理程式編寫能力,搜尋結果不再是傳統的十條藍色連結,而變成了一個互動式視覺化頁面。
用戶可以在頁面上旋轉三維結構、查看不同截面的形態,整個過程不用跳轉到其他網站。負責Google搜尋業務的里德說,這個新版搜尋框是「自我們那個標誌性搜尋框首次亮相以來最大的升級」。
03 一千九百億資本支出,與幫企業省下十億美元的模型
在這種能力基礎上,對於那些在AI基礎設施上投入巨資的企業來說,Gemini 3.5 Flash可能帶來最直接的影響。
皮查伊指出,很多公司早就把全年的token預算用完了,「而現在才剛過五月」。他把Gemini 3.5 Flash定位成那些在規模化部署AI時成本失控的企業的「財務救生索」。智慧代理工作流尤其消耗token。Google的模型API每分鐘處理大約190億個token,自有產品每月處理超過3,200兆個token,近一年內成長了七倍。而兩年前的I/O大會上,這個數字還只是每月9.7兆。
在這種背景下,Gemini 3.5 Flash的價格不到同類前沿模型的一半。皮查伊算了一筆帳:對於那些在Google雲端上每天處理大約1兆個token的頂級客戶來說,如果把80%的工作量轉移到Flash和前沿模型的組合上,每年可以省下超過10億美元。這個數字足以改變企業的採購決策和專案投資報酬率的計算方式。
Gemini 3.5成本優勢的根基是Google的基礎設施投入。皮查伊透露,Google 2026年的資本支出預計在1,800億到1,900億美元之間,是四年前310億美元的差不多六倍。
其中一個重要投資方向是客製化晶片。第八代TPU首次採用雙晶片架構,分別為訓練(TPU v8o)和推論(TPU v8i)設計。針對推論最佳化的TPU v8i,讓Google能夠以比依賴通用GPU的競爭對手更低的成本運行模型,省下來的錢會轉給客戶。皮查伊說:「這意味著可以在幾週而不是幾個月內訓練出更大、更有能力的模型。」
04 Gemini Spark:私人AI管家
當模型夠快、夠便宜之後,就能從被動回答問題變成主動辦事的智慧代理。Google為此推出了Gemini Spark。
負責Google Labs和Gemini應用的副總裁伍德沃德介紹說,Gemini Spark是一個7天24小時運行在Google雲端專用虛擬機器上的AI。就算你關了裝置,它也能在背景繼續工作。Gemini Spark深度整合了Gmail、文件、試算表和簡報。
伍德沃德描述道:「當你使用它時,幾乎感覺就像你把東西往後一甩,Spark就會接住它並完成工作。」關於Spark具體能做什麼,伍德沃德透露了測試人員的幾個使用情境:規劃派對、追蹤學校行程、監控收件匣中的問題。
安全方面,Gemini Spark在執行高風險操作前需要用戶明確批准。針對支付行為,Google推出了智慧代理支付協議,允許設定嚴格的使用範圍:批准哪些品牌、設定消費上限、限定哪些商家。Google計劃今年夏天擴展連接能力,讓Gemini Spark透過Chrome瀏覽器操作更多第三方應用和網站。
一批受信任的測試者本週拿到了存取權限。下週,Gemini Spark將向美國Google AI Ultra訂閱用戶推出測試版。AI Ultra是Google同步推出的新訂閱方案,月費100美元,面向開發者、技術主管和高階創作者,提供對Antigravity的優先存取權、更高的使用上限以及捆綁的Omni Flash存取權。
圍繞Gemini Spark的是Google一系列面向一般消費者的佈局。先看用戶規模。Gemini應用月活躍用戶已從一年前的4億成長到9億多,搜尋中的「AI模式」上線僅一年月活就突破10億,且每季查詢量翻倍成長。
與此同時,Google還推出了兩項新服務:一是全天候監控網路的資訊智慧代理,可以主動追蹤你關注的價格、股票或話題變化並即時提醒;二是基於Google錢包的AI通用購物車,支援跨不同電商網站統一管理和結算,省去分別登入、分別付款的麻煩。
05 Gemini Omni:全模態世界模型,影像生成的新物種
和Gemini 3.5 Flash、Gemini Spark一起亮相的,還有Gemini Omni——Google第一個真正的原生多模態模型。
卡武克庫奧盧特意把它和現有的影片生成模型Veo做了區分:「Veo是一個文字到影片的模型,而Gemini Omni是一個真正的多模態輸入、多模態輸出模型。」Gemini Omni可以接受文字、圖像、音訊和影片的任意組合作為輸入,並在同樣的模態上生成輸出。所有處理都在一個統一的模型裡完成,而不是拼湊多個系統。
用戶透過對話就能一步步編輯和生成影片,每一條指令都基於上一條,影片隨著對話的推進連貫變化。Google高層的展示展現了幾個具體的編輯情境:用戶上傳一段戶外騎行影片,輸入指令「把背景換成雪地」,Gemini Omni在保持騎行者和自行車運動軌跡不變的情況下,把整個環境換掉了。接著用戶說「改成從側面跟拍的角度」,畫面的攝影機視角就跟著調整了。最後用戶要求「加上一段旁白解釋這條路線」,模型便生成了配樂和解說。整個過程在同一個對話執行緒裡完成,不需要匯出檔案、切換工具或者重新上傳。
卡武克庫奧盧還描述了更廣泛的應用前景:「你可以想像,當你在探索某些東西時,這能構建出非常類似於教學內容的能力。」Google特別強調了物理效果的改進——重力、動能、流體力學——這些細節決定了影片看起來像實拍還是AI生成的。
在OpenAI年初為了釋放算力而放棄影片生成工具Sora的背景下,Google這時候推出Gemini Omni,是對自己基礎設施實力的一次公開展示。卡武克庫奧盧還透露,團隊曾經讓智慧代理從零搭建一個可運行的作業系統(未透露名字),用來測試Gemini 3.5 Flash的能力邊界。
內容安全方面,所有Gemini Omni生成的內容都帶有Google SynthID數位浮水印,C2PA內容憑證也在擴展中。Antigravity平台上推出了AI內容檢測API。Google宣布OpenAI、Kakao和ElevenLabs也將採用SynthID。對於那些合規要求嚴格的企業來說,這套工具提供了可追溯的稽核軌跡。
Gemini Omni即日向美國Gemini付費用戶提供,未來幾週將透過Vertex AI API向開發者開放。Google還推出了一個「個人頭像」計畫,允許創作者錄製短影片,授權在生成內容中使用自己的聲音和肖像。Google員工當天發布的I/O相關貼文中,就用了他們AI生成的肖像作為示範。
06 Antigravity 2.0:開發與管理自主AI智慧代理團隊的平台
模型需要平台來承載,為此Google同步發表了Antigravity 2.0。六個月前它還只是個編碼環境,現在已被改造成「用於開發和管理自主AI智慧代理團隊的平台」。
卡武克庫奧盧指出,團隊「和我們的智慧代理開發平台Google Antigravity一起開發了Gemini 3.5 Flash」。Flash的速度、工具使用、長上下文推理和程式碼生成能力,都針對開發者在平台上的工作負載做了專門的最佳化。
Antigravity以獨立桌面應用的形式出現,也提供命令列和SDK。開發者可以同時調度多個智慧代理:一個寫網站程式碼,一個生成品牌素材,第三個規劃產品架構。這些智慧代理平行作業、統一管理。
一同推出的還有託管智慧代理和CodeMender。託管智慧代理透過一次API呼叫就可以在隔離的Linux環境中啟動,進行推理、使用工具和執行程式碼。CodeMender是一個安全智慧代理,利用Gemini的高階推理能力自動發現並修復關鍵程式碼漏洞。卡武克庫奧盧認為,當智慧代理系統寫的程式碼越來越多時,這種能力是不可或缺的。
支撐這一切的是一個數據飛輪。今年3月,開發者在Antigravity上每天處理大約0.5兆個token。到5月中旬,這個數字飆升到超過3兆,大約十週內成長了六倍。皮查伊說,使用量「幾乎每隔幾週」就翻一倍。
飛輪的邏輯很清楚:工程師用得越多,模型團隊收集到的真實訊號就越多;這些訊號回饋回來改進模型,讓模型變得更有用,進而推動更多人使用。皮查伊稱之為「一個強大的回饋循環,它讓我們能夠持續改進3.5系列模型」,Google的重點一直是「提升模型智慧,確保工具使用、指令遵循、長週期任務、智慧代理解碼等一切功能都運轉良好」。
07 每六個月迭代一次:AI的未來節奏
Gemini 3.5 Flash只是開始。
卡武克庫奧盧表示,Gemini 3.5 Pro正在內部測試,下個月推出。他還明確了Google主要模型的更新節奏:大約每六個月一次。回顧一下,Gemini 3在去年11月發布,Gemini 3.5在今年5月發布,這個節奏正在穩定下來。當被問及如何決定版本編號時,他解釋說:「決定編號更新的,實際上是我們研究中看到的進展,以及這些進展在模型中的體現和產生的影響。」
對買家來說,這種可預測的快速迭代改變了規劃週期。一個每六個月就能用三分之一成本超越前代旗艦的模型,意味著今天緊巴巴的token預算到年底可能就已經顯得很寬裕了。企業在制定技術路線圖時,不能再拿靜態的眼光來評估性價比。
當然,10億美元還是簡報上的數字推演。遺留系統、合規要求、組織慣性——這些詞在每一輪技術迭代中都會出現,往往會讓紙面上的成本曲線在落地時「打骨折」。但Google也表示,自己正在用每天3兆token、而且每隔幾週就翻倍的內部使用量,以任何客戶都沒試過的規模,親身實踐著這個賭注。
一年以後,AI又會是怎樣的新面貌?