智譜AIが上場後、再び新成果を発表。
オープンソースの軽量級大規模言語モデルGLM-4.7-Flashを公開し、前世代のGLM-4.5-Flashを直接置き換え、APIは無料で開放されている。
これは30Bの総パラメータ、わずか3Bの活性化パラメータを持つ混合エキスパート(MoE)アーキテクチャのモデルで、公式は「ローカルプログラミングとインテリジェントエージェントアシスタント」と位置付けている。
SWE-bench Verifiedコード修正テストでは、GLM-4.7-Flashが59.2点を獲得し、「人類最後の試験」などの評価でも同規模のQwen3-30BやGPT-OSS-20Bを显著に上回った。
昨年12月に発表されたフラッグシップモデルGLM-4.7の軽量化バージョンとして、GLM-4.7-FlashはGLM-4シリーズのコーディングと推論のコア能力を継承し、効率性を専門的に最適化している。
プログラミング以外にも、公式はこのモデルをクリエイティブライティング、翻訳、長文コンテキストタスク、さらにはロールプレイシーンでの使用を推奨している。
30Bパラメータでわずか3Bを活性化、MLAアーキテクチャが初登場
GLM-4.7-Flashはこのシリーズの「混合思考モデル」の設計を踏襲している。
総パラメータ量は300億だが、実際の推論時には約30億パラメータのみを活性化し、モデルの能力を維持しながら計算コストを大幅に削減している。
コンテキストウィンドウは200Kをサポートし、クラウドAPI呼び出しとローカルデプロイの両方が可能。
現在、公式は技術レポートをまだ提供しておらず、詳細は設定ファイルから掘り起こす必要がある。
開発者は重要な詳細に気づいた:GLMチームは今回初めてMLA(Multi-head Latent Attention)アーキテクチャを採用した。このアーキテクチャは以前DeepSeek-v2が最初に使用し有効性を検証しており、今度は智譜も追従した。
具体的な構造来看、GLM-4.7-Flashの深さはGLM-4.5 AirやQwen3-30B-A3Bに近いが、エキスパート数が異なる――64のエキスパートを使用し、活性化時には5つ(共有エキスパートを含む)のみを呼び出す。
発表から12時間以内に、HuggingFace、vLLMなどの主要プラットフォームがday0サポートを提供した。
公式は第一时间で华为昇腾NPUのサポートも提供した。
ローカルデプロイ方面では、開発者の実測では32GB統一メモリ、M5チップのAppleノートブックで43 token/sの速度で実行可能。
公式APIプラットフォームでは、ベース版GLM-4.7-Flashは完全無料(1つの同時接続制限)、高速版GLM-4.7-FlashXの価格も非常に手頃。
同類モデルと比較すると、コンテキスト長サポートと出力token価格に優位性があるが、現状ではレイテンシとスループットはまだ最適化が必要。
HuggingFace:https://huggingface.co/zai-org/GLM-4.7-Flash
参考リンク:[1]https://x.com/Zai_org/status/2013261304060866758
「いいね」「シェア」「ハート」
コメント欄であなたの考えを共有してください!
— 完 —
👑 年間「AI 100」製品ランキング 正式発表!
量子位智库は三大セクター——最強総合力の「フラッグシップAI 100」、最も将来性のある「イノベーションAI 100」と十大ホット赛道代表製品を通じて、2025年度国内C端AI製品の発展の脈絡とイノベーション成果を全面的に整理。
一括フォロー 👇 星印をつける
科技の先端進歩を毎日見る