《新智元》報導
編輯:好睏
【新智元導讀】Gemini 3.5代號「卡布奇諾」提前曝光,直接從3.2跳級命名!全新的24小時全天候AI代理人「Spark」能幫你管理郵件、執行任務,甚至可能在未經你同意的情況下直接下單花錢。
就在剛剛,Gemini 3.5 提前曝光了!
網友 Lentils 釋出最新消息,代號「Cappuccino」的 Gemini 3.5 Pro 檢查點已經開始產出。
而就在幾個小時前,傳聞還稱之為 Gemini 3.2,沒想到一下子就替換成了 Gemini 3.5。
從 3.2 到 3.5 的跳級命名,顯示 Google 顯然想在 I/O 大會上講一個更大的故事。
Gemini 大更新,Google 祭出殺手鐧
前一天,知名爆料人 can 率先曬出了首批輸出結果。
一個是 DualShock 4 手把的互動式藍圖拆解圖,另一個是鵜鶘騎腳踏車的向量插畫,自帶 7 維客製化面板,車架顏色、光線、頭飾、籃筐內容物、踩踏速度全部可以即時切換。
從截圖來看,這已經不是簡單的 SVG 圖片了,而是一個由提示詞生成的完整互動式網頁應用程式!
Abacus.AI 執行長 Bindu Reddy 隨後釋出的數據更驚人——
3.2 Flash 在編碼和推理上達到 GPT-5.5 的 92%,成本卻便宜了 15 到 20 倍。
不僅如此,Google 全新的全時 AI 代理人「Gemini Spark」也被挖了出來。
可以看到,它不僅能全天候待命,幫你管理郵件、執行任務,甚至可能在不問你的情況下就替你下單。
然而就在此時,Alex Heath 的獨家爆料卻狠狠地潑了一盆冷水——
新款 Gemini 的效能,最多只能追平 OpenAI 的 GPT-5.5……
一個提示詞四個方案,Gemini「懶惰病」治好了
先看好消息。
以前 Gemini 生成 SVG 向量圖,社群最常用的吐槽就是一個字:「懶」。給一個提示詞,產出一個敷衍的結果。
但這次不一樣了。
網友 Lentils 只用了一個簡單提示,Gemini 就直接產出了 4 個風格各異、細節滿滿的機器人 SVG。
同期洩漏的 3.5 Flash 也印證了這個趨勢。
LM Arena 的匿名跑分顯示,Flash 在 SVG 生成、互動式 3D 編碼和動畫處理上已經超過了 3.1 Pro。
換句話說,Google 的蒸餾加稀疏化技術正在收穫回報,把前沿模型壓縮成輕量版,但品質斷崖卻沒出現。
幫你管郵件、替你花錢,Google AI 代理人膽子夠大
同一天的另一個重磅洩漏是「Gemini Spark BETA」。
根據爆料,Spark 的定位是「你的日常 AI 智慧夥伴,全天候待命」。
一個 24 小時全時運轉的 AI 代理人,幫你處理收件匣、執行線上任務、管理多步驟工作流程。
Spark 的數據來源清單讓人不寒而慄。
已連結的 Google 應用程式、技能模組、聊天記錄、定時任務、你登入的網站、個人智慧分析、位置資訊。
Gemini 會把你的姓名、聯絡方式、檔案、偏好等資訊分享給第三方來完成任務。
此外,為了保持會話連續性,系統還會保存遠端瀏覽器資料,包括登入憑證和遠端程式碼執行資料。
不過值得注意的是,Spark 雖然設計上會在敏感操作前徵求許可,但它「可能在未經詢問的情況下分享你的資訊或完成購買」。
也就是說,它可能不問你就下單,也可能不問你就把資訊分享出去。
Spark 的前身是 Google 內部代號「Remy」的 AI 代理人升級版,此前只面向 AI Ultra 訂閱用戶。
從 Remy 到 Spark,Gemini 的 AI 代理人從「一個功能」一步升格為「24小時不間斷的數位生活管家」。
這正面向標 Anthropic 即將推出的託管 AI 代理人 Conway,以及 OpenAI 已經上線的 24小時不間斷 AI 代理人平台。
半年前的榜首,半年後摸不到前沿的邊
好消息到此結束。
根據 Alex Heath 從多個消息來源處得到的確認,下週二發表的新 Gemini,大致落在 GPT-5.5 這個檔位,距離 Mythos 還有明顯差距。
想當初,剛發表的 Gemini 3 憑藉著 LMArena 1501 分的超高Elo評分,幾乎橫掃了所有主流排行榜第一名。
半年過去,GPT-5.5、Opus 4.7、Mythos 相繼發表後,格局已經被徹底改寫。
英國 AI 安全研究所的評測顯示,Mythos 是第一個同時通過其兩套網路安全測試範圍的模型,GPT-5.5 只通過了一套。
AISI 甚至承認,評測框架已經快跟不上 Mythos 的能力了。
回到 Google 這邊,根據網友 Fandu 挖出的模型選擇器最新介面,新款 Gemini 很可能原生支援 MCP 第三方工具接入,思維模式也將全面重構。
可以看到,除了 3.1 Flash-Lite、3 Flash、3.1 Pro 這幾個大家熟知的模型外,還多了一個從未見過的分類「MCP Tool Testing」,也就是「可用於 MCP 工具測試的模型」。
思維模式也從原來的獨立 Thinking 模式,變成了全局開關,分為 Standard(適合大多數問題)和 Extended(求解複雜問題)兩檔。
程式設計,最讓 DeepMind 焦慮的戰場
Heath 的爆料中,程式設計部分的措辭最重。
他說,DeepMind 內部正面臨切實的壓力,尤其是在程式設計能力方面需要迎頭趕上。
追趕目標很明確:Anthropic。過去一年,Claude 在開發者群體中坐穩了預設選項的位置。
新 Gemini 會包含程式設計改進,但在 Heath 的消息來源裡,沒有一個人認為會帶來質變。
Google 的 AI 程式設計平台 Antigravity,內部用得很多,但在外部市場一直沒能突圍。
4 個月 6% 的開發者採用率,對一個整合開發環境來說不算慢,但跟 Claude Code 和 Codex 的勢頭比差距明顯。
問題出在哪裡?
XDA 的一篇月度評測實測了三個工具做同一個任務。
Claude Code 第一次就準確理解了複雜的創意提示。而 Antigravity 的輸出卻像是用小畫家塗鴉出來的。
此外,Antigravity 的定價策略也讓開發者頭痛。
Google 已經多次調整定價模型,從免費預覽到點數制度,社群論壇上關於額度用完沒提醒的抱怨一直沒斷過。
但最為關鍵的在於,如今 AI 程式設計已經徹底出圈了。
不管是 Claude Cowork,還是 OpenAI 的 Codex,都能讓不會寫程式的人用得飛起——
產品經理用自然語言描述需求,直接得到可執行的原型。設計師把 Figma 稿丟進去,就能拿到前端程式碼。
然而到目前為止,Google 都沒有任何產品能夠進入這個對話。
不過,知名大佬 Haider 的評論倒是提供了另一個視角。
Google 可能並不打算透過跟別人跑同一條賽道來取勝,他們更大的重心在於打造一個更強大的多模態系統,而這需要時間。
通往超級人工智慧的飛輪,三家同時踩油門
雖然模型追不上,但 Google 有數十億級的分發入口和全時 AI 代理人。
Spark 一旦鋪開,用戶的郵件、日程、購物、瀏覽數據將反哺 Gemini 的下一代訓練。
這是 OpenAI 和 Anthropic 都很難複製的打法。
但競爭對手沒有閒著。
就在昨天,OpenAI 給 Codex 追加 ultrafast 模式,速度提升 2-3 倍,還祭出補貼戰,30 天內轉換的企業 2 個月免費。3 小時內 2000 名開發者響應。
Anthropic 同步放出 Opus 4.7 Fast 模式,Claude Code 額度提升 50%。
這場補貼戰表面上是搶開發者,底層邏輯比這深得多。
GPT-5.6 的開發幾乎可以確定是在 GPT-5.5 的深度參與下進行的。
AI 寫的程式碼反哺 AI 的訓練,誰掌握了程式設計工具的使用者,誰就掌握了這個循環的加速器。
三家在三條賽道上同時踩油門。
OpenAI 靠迭代速度輾壓,三週一個新版本。Anthropic 靠模型品質封神,Mythos 重新定義了前沿。Google 靠分發和 AI 代理人包抄,把 AI 塞進十億人的手機裡。
沒有人減速。通往超級人工智慧的飛輪,已經開始自轉了。
而對於每天都在用這些工具的人來說,這場三巨頭的軍備競賽,可能是 2026 年最划算的一件事。
補貼在加碼,額度在提升,模型在變強,價格在下降。
唯一的問題是,你的工作流程押對賽道了嗎?
參考資料:
https://x.com/alexeheath/status/2054747125616169229
https://www.testingcatalog.com/google-prepares-gemini-spark-ai-agent-ahead-of-i-o-launch/