夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
智譜AI上市後,再發新成果。
開源輕量級大語言模型GLM-4.7-Flash,直接替代前代GLM-4.5-Flash,API免費開放調用。
這是一個30B總參數、僅3B激活參數的混合專家(MoE)架構模型,官方給它的定位是「本地程式編寫與智慧體助手」。
在SWE-bench Verified程式碼修復測試中,GLM-4.7-Flash拿下59.2分,「人類最後的考試」等評測中也顯著超越同規模的Qwen3-30B和GPT-OSS-20B。
作為去年12月發布的旗艦模型GLM-4.7的輕量化版本,GLM-4.7-Flash繼承了GLM-4系列在編碼和推理上的核心能力,同時針對效率做了專門優化。
除了程式編寫,官方還推薦將這個模型用於創意寫作、翻譯、長上下文任務,甚至角色扮演場景。
30B參數只激活3B,MLA架構首次上線
GLM-4.7-Flash沿用了該系列的「混合思考模型」的設計。
總參數量300億,但實際推理時僅激活約30億參數,使模型在保持能力的同時大幅降低計算開銷。
上下文視窗支援到200K,既可以雲端API調用,也支援本地部署。
目前官方還沒有給出技術報告,更多細節還要從設定檔自己挖掘。
有開發者注意到一個重要細節:GLM團隊這次首次採用了MLA(Multi-head Latent Attention)架構。這一架構此前由DeepSeek-v2率先使用並驗證有效,如今智譜也跟進了。
從具體結構來看,GLM-4.7-Flash的深度與GLM-4.5 Air和Qwen3-30B-A3B接近,但專家數量有所不同——它採用64個專家而非128個,激活時只調用5個(算上共享專家)。
目前發布不到12小時,HuggingFace、vLLM等主流平台就提供了day0支援。
官方也在第一時間提供了對華為昇騰NPU的支援。
本地部署方面,經開發者實測在32GB統一記憶體、M5晶片的蘋果筆記本上能跑到43 token/s的速度。
官方API平台上基礎版GLM-4.7-Flash完全免費(限1個並發),高速版GLM-4.7-FlashX價格也相當親民。
對比同類模型,在上下文長度支援和輸出token價格上有優勢,但目前延遲和吞吐量還有待優化。
HuggingFace:https://huggingface.co/zai-org/GLM-4.7-Flash
參考連結:[1]https://x.com/Zai_org/status/2013261304060866758
👑 年度「AI 100」產品榜單正式發布!
量子位智庫透過三大板塊——最強綜合實力的「旗艦AI 100」、最具未來潛力的「創新AI 100」和十大熱門賽道代表產品,全面梳理2025年度國內C端AI產品的發展脈絡與創新成果。