智譜新模型也用DeepSeek的MLA，蘋果M5就能跑

夢晨發自凹非寺量子位 | 公眾號 QbitAI

智譜AI上市後，再發新成果。

開源輕量級大語言模型GLM-4.7-Flash，直接替代前代GLM-4.5-Flash，API免費開放調用。

這是一個30B總參數、僅3B激活參數的混合專家（MoE）架構模型，官方給它的定位是「本地程式編寫與智慧體助手」。

在SWE-bench Verified程式碼修復測試中，GLM-4.7-Flash拿下59.2分，「人類最後的考試」等評測中也顯著超越同規模的Qwen3-30B和GPT-OSS-20B。

作為去年12月發布的旗艦模型GLM-4.7的輕量化版本，GLM-4.7-Flash繼承了GLM-4系列在編碼和推理上的核心能力，同時針對效率做了專門優化。

除了程式編寫，官方還推薦將這個模型用於創意寫作、翻譯、長上下文任務，甚至角色扮演場景。

30B參數只激活3B，MLA架構首次上線

GLM-4.7-Flash沿用了該系列的「混合思考模型」的設計。

總參數量300億，但實際推理時僅激活約30億參數，使模型在保持能力的同時大幅降低計算開銷。

上下文視窗支援到200K，既可以雲端API調用，也支援本地部署。

目前官方還沒有給出技術報告，更多細節還要從設定檔自己挖掘。

有開發者注意到一個重要細節：GLM團隊這次首次採用了MLA（Multi-head Latent Attention）架構。這一架構此前由DeepSeek-v2率先使用並驗證有效，如今智譜也跟進了。

從具體結構來看，GLM-4.7-Flash的深度與GLM-4.5 Air和Qwen3-30B-A3B接近，但專家數量有所不同——它採用64個專家而非128個，激活時只調用5個（算上共享專家）。

目前發布不到12小時，HuggingFace、vLLM等主流平台就提供了day0支援。

官方也在第一時間提供了對華為昇騰NPU的支援。

本地部署方面，經開發者實測在32GB統一記憶體、M5晶片的蘋果筆記本上能跑到43 token/s的速度。

官方API平台上基礎版GLM-4.7-Flash完全免費（限1個並發），高速版GLM-4.7-FlashX價格也相當親民。

對比同類模型，在上下文長度支援和輸出token價格上有優勢，但目前延遲和吞吐量還有待優化。

HuggingFace：https://huggingface.co/zai-org/GLM-4.7-Flash

參考連結：[1]https://x.com/Zai_org/status/2013261304060866758

👑 年度「AI 100」產品榜單正式發布！

量子位智庫透過三大板塊——最強綜合實力的「旗艦AI 100」、最具未來潛力的「創新AI 100」和十大熱門賽道代表產品，全面梳理2025年度國內C端AI產品的發展脈絡與創新成果。