智譜新模型也用DeepSeek的MLA,蘋果M5就能跑

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI

智譜AI上市後,再發新成果。

開源輕量級大語言模型GLM-4.7-Flash,直接替代前代GLM-4.5-Flash,API免費開放調用。

圖片

這是一個30B總參數、僅3B激活參數的混合專家(MoE)架構模型,官方給它的定位是「本地程式編寫與智慧體助手」。

在SWE-bench Verified程式碼修復測試中,GLM-4.7-Flash拿下59.2分,「人類最後的考試」等評測中也顯著超越同規模的Qwen3-30B和GPT-OSS-20B。

圖片

作為去年12月發布的旗艦模型GLM-4.7的輕量化版本,GLM-4.7-Flash繼承了GLM-4系列在編碼和推理上的核心能力,同時針對效率做了專門優化。

除了程式編寫,官方還推薦將這個模型用於創意寫作、翻譯、長上下文任務,甚至角色扮演場景。

30B參數只激活3B,MLA架構首次上線

GLM-4.7-Flash沿用了該系列的「混合思考模型」的設計。

總參數量300億,但實際推理時僅激活約30億參數,使模型在保持能力的同時大幅降低計算開銷。

上下文視窗支援到200K,既可以雲端API調用,也支援本地部署。

目前官方還沒有給出技術報告,更多細節還要從設定檔自己挖掘。

圖片

有開發者注意到一個重要細節:GLM團隊這次首次採用了MLA(Multi-head Latent Attention)架構。這一架構此前由DeepSeek-v2率先使用並驗證有效,如今智譜也跟進了。

從具體結構來看,GLM-4.7-Flash的深度與GLM-4.5 Air和Qwen3-30B-A3B接近,但專家數量有所不同——它採用64個專家而非128個,激活時只調用5個(算上共享專家)。

圖片

目前發布不到12小時,HuggingFace、vLLM等主流平台就提供了day0支援。

圖片
圖片

官方也在第一時間提供了對華為昇騰NPU的支援。

圖片

本地部署方面,經開發者實測在32GB統一記憶體、M5晶片的蘋果筆記本上能跑到43 token/s的速度。

圖片

官方API平台上基礎版GLM-4.7-Flash完全免費(限1個並發),高速版GLM-4.7-FlashX價格也相當親民。

圖片

對比同類模型,在上下文長度支援和輸出token價格上有優勢,但目前延遲和吞吐量還有待優化。

圖片

HuggingFace:https://huggingface.co/zai-org/GLM-4.7-Flash

參考連結:[1]https://x.com/Zai_org/status/2013261304060866758

👑 年度「AI 100」產品榜單正式發布!

量子位智庫透過三大板塊——最強綜合實力的「旗艦AI 100」、最具未來潛力的「創新AI 100」和十大熱門賽道代表產品,全面梳理2025年度國內C端AI產品的發展脈絡與創新成果。

圖片


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.