Google Gemini 3.1 Pro 屠榜稱霸,清華姚順宇出手!Claude 和 GPT 被逼入死角

新智元報導

編輯:好困 桃子

【新智元導讀】Google DeepMind 深夜投下核彈級產品,下一代 Gemini 3.1 Pro 正式登場。在公認最困難的 ARC-AGI-2 測試中,它拿下最高分直接看呆矽谷,推理能力狂飆兩倍,直接把 Claude 4.6 拉下王座。

Gemini 3.1 Pro 示意圖

Gemini 3 Pro 之後,Google DeepMind 終於祭出殺手鐧!

剛剛,下一代旗艦模型 Gemini 3.1 Pro 深夜震撼登場,直接刷爆全領域的 SOTA(State of the Art),成為 AI 新王者。

性能對比圖研發團隊照片

Deep Think 之後,清華校友姚順宇也參與了 Gemini 3.1 Pro 的研發

這一次,Gemini 3.1 Pro 實現了大模型推理能力的史詩級飛躍。

在極為嚴苛的 ARC-AGI-2 測試中,它一舉斬獲 77.1% 的高分,性能飆升至上一代 3.0 Pro 的兩倍有餘。

外加接近滿分(98%)的 ARC-AGI-1,不管是思考拉滿的 Claude Opus 4.6,還是特調版的 GPT-5.2,通通都被踩在腳下。

ARC-AGI 測試成績對比圖 1對比圖 2

從下方的 SVG 對比測試中,便能直觀感受到 3.1 Pro 與 3 Pro 之間懸殊的實力代差。

SVG 動畫對比

在編程和推理領域,Gemini 3.1 Pro 同樣一騎絕塵,全面碾壓 Sonnet 4.6、GPT-5.2。

在 AAII 綜合評測中,3.1 Pro 強勢登頂,不僅總分領先 Claude Opus 4.6 足足 4 分,API 呼叫成本更是不到一半。

AAII 評測結果

今天起,Gemini 3.1 Pro 已正式在 Gemini 和 NotebookLM 中上線。開發者可透過 Google AI Studio、Antigravity 以及 Android Studio 搶先體驗。

上線平台資訊

如今,矽谷的 AI 戰局已然變天,重量級玩家僅剩下 Google DeepMind 和 Anthropic 正面對決。

此前曾風頭無兩的 OpenAI,似乎正逐漸失去在這片主戰場上的主動權。

Gemini 3.1 Pro 深夜突襲

全能 SOTA 成績翻倍

作為 Google 迄今為止最強悍的模型,3.1 Pro 在 3 Pro 的基礎上實現了全面跨越。

它不僅具備原生的全模態輸入能力,更支援高達 100 萬 Token 的超長上下文。

模型功能展示

在業界最為關注的性能對標中,Gemini 3.1 Pro 展現出了令人窒息的統治力。

在人類最後考試(HLE)中,Gemini 3.1 Pro 在零工具輔助下拿下了 44.4% 的成績,將 GPT-5.2(34.5%)和 Opus 4.6(40.0%)逼到了牆角。

在 ARC-AGI-2 測試中,Gemini 3.1 Pro 以 77.1% 的逆天成績一騎絕塵,把剛剛登頂沒兩天的 Opus 4.6(68.8%)甩在了身後。

更讓人震撼的,是它在程式碼和 AI 智慧體領域的跨越式進化。

在 LiveCodeBench Pro 中,狂砍 2887 的 Elo 積分,斷層領先同儕;

在 Terminal-Bench 2.0 中,憑藉 68.5% 的得分壓制了專攻程式碼的 GPT-5.3-Codex(64.7%);

在 APEX-Agents 中,更是以 33.5% 的成績傲視群雄,相比之下,Opus 4.6 得分為 29.8%,而 GPT-5.2 僅有 23.0%。

程式碼能力對比圖 1程式碼能力對比圖 2

除了硬核推理,Gemini 3.1 Pro 在長篇大論的處理上也大秀肌肉。

在 MRCR v2 的 128k 長上下文測試中,它直接拿下了 84.9% 的高分。

更可怕的是,它獨家支援了 1M Token 的終極測試並取得 26.3% 的成績,而同台競技的 GPT-5.2 和 Opus 4.6 在這個級別上甚至直接顯示「不支援」。

長上下文測試結果

更重要的是,相較於上一代,3.1 Pro 在幻覺率上大幅下降。

幻覺率對比

手刻神級應用,這才是殺手級 AI

3.1 Pro 帶來的不僅是跑分上的碾壓,更是邏輯推理能力的全面進化。

現在,它不僅能攻克極度棘手的邏輯難題,更在實際落地應用中展現出了令人驚豔的生產力重塑能力。

不論是將晦澀的概念轉化為直觀圖解,把海量數據濃縮成清晰的圖表,還是讓天馬行空的創意直接變成現實,3.1 Pro 都能輕鬆勝任。

應用展示

基於程式碼的動畫

只需一段簡單的文字提示詞,3.1 Pro 就能直接生成可無縫嵌入網頁的 SVG 動畫。

最絕的是,這些純程式碼建構的動畫不僅支援無限放大且絕對清晰,它的檔案體積相比傳統影片更是小得令人難以置信。

整合複雜系統

強大的推理能力還讓 3.1 Pro 徹底打破了複雜 API 與人性化設計之間的壁壘。

比如,它能直接構建出一個即時的航太數據看板,完美接入公開的遙測數據流,將國際太空站的即時運行軌跡清楚地展現在你眼前。

互動設計

3.1 Pro 甚至能用純程式碼編寫出極其複雜的 3D 椋鳥群舞特效,為你打造一整套沉浸式體驗。

在這套系統中,你可以透過手勢追蹤技術即時「指揮」鳥群,同時還能聽到隨著鳥群動態即時演變的生成式配樂。

這絕對是研究人員和設計師開發多模態互動介面原型的一大利器。

創意編程

更有趣的是,3.1 Pro 還能將經典的文學主題轉化為真正能跑的精美程式碼。

比如讓它為《嘯風山莊》(Wuthering Heights)設計一個現代風格的個人主頁,模型不僅精準捕捉了原著壓抑深沉的氛圍基調,還順勢生成了一個極簡且充滿現代感的介面,可謂是完美拿捏了主角的靈魂底色。

全網驚艷首測,統治 SVG

Google UX 工程師 Michael Chang 直接上手,用 3.1 Pro 模擬複雜的城市規劃,瞬間生成並設計出了一個全新的城市鳥瞰拓撲。

城市規劃生成

僅僅輸入一句話的 Prompt,3.1 Pro 便在短短 3 分鐘內,刻出了一個長達 11 秒的 SVG 動畫。

SVG 動畫生成動畫效果

在另一個 SVG 測試中,它生成的「海豹頂皮球」在視覺表現力上也堪稱驚艷。

海豹頂皮球動畫

AI 大牛 Simon Willison 在測試中,讓 3.1 Pro 在 5 分鐘內生成了一個可以清楚勾勒出腿的鵜鶘 SVG。

鵜鶘 SVG

在 3D 空間推理方面,3.1 Pro 也是新 SOTA。

3D 空間推理

3.1 Pro 生成的 3D 像素版寶可夢,可比 3.0 Pro 強太多了。

3D 像素寶可夢對比寶可夢動畫

另外,3.1 Pro 還能生成最佳的互動式動畫,展示一顆種子從發芽到長成大樹的全過程。

種子成長動畫樹木生長過程

進化沒有終點,只有更強的下一幕

今天起,Gemini 3.1 Pro 預覽版正式發布,這僅僅是一個新的開始。

Google 表示,從去年 11 月至今,用戶真實的反饋,都加速了每一次的研發迭代。

未來展望

Gemini 3.1 Pro 深夜突襲,是對 AI 產業格局的又一次重塑。

Google DeepMind 用這種近乎「秀肌肉」的迭代速度告訴世界——

在通往 AGI 的深水區,只有硬體算力與算法深度耦合的玩家,才能拿穩下半場的入場券。

參考資料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

https://x.com/Google/status/2024519455389192204?s=20

https://deepmind.google/models/model-cards/gemini-3-1-pro/

主標籤:人工智慧科技

次標籤:Gemini 3.1 ProARC-AGI-2清華大學大型語言模型Google DeepMind


上一篇:實際測量 AI 智慧體的自主性

下一篇:一夜變天?Claude出手,網安股集體「血洗」!全球百億市值已蒸發

分享短網址