智譜の新モデルもDeepSeekのMLAを使用、Apple M5で実行可能

智譜AIが上場後、再び新成果を発表。

オープンソースの軽量級大規模言語モデルGLM-4.7-Flashを公開し、前世代のGLM-4.5-Flashを直接置き換え、APIは無料で開放されている。

これは30Bの総パラメータ、わずか3Bの活性化パラメータを持つ混合エキスパート（MoE）アーキテクチャのモデルで、公式は「ローカルプログラミングとインテリジェントエージェントアシスタント」と位置付けている。

SWE-bench Verifiedコード修正テストでは、GLM-4.7-Flashが59.2点を獲得し、「人類最後の試験」などの評価でも同規模のQwen3-30BやGPT-OSS-20Bを显著に上回った。

昨年12月に発表されたフラッグシップモデルGLM-4.7の軽量化バージョンとして、GLM-4.7-FlashはGLM-4シリーズのコーディングと推論のコア能力を継承し、効率性を専門的に最適化している。

プログラミング以外にも、公式はこのモデルをクリエイティブライティング、翻訳、長文コンテキストタスク、さらにはロールプレイシーンでの使用を推奨している。

30Bパラメータでわずか3Bを活性化、MLAアーキテクチャが初登場

GLM-4.7-Flashはこのシリーズの「混合思考モデル」の設計を踏襲している。

総パラメータ量は300億だが、実際の推論時には約30億パラメータのみを活性化し、モデルの能力を維持しながら計算コストを大幅に削減している。

コンテキストウィンドウは200Kをサポートし、クラウドAPI呼び出しとローカルデプロイの両方が可能。

現在、公式は技術レポートをまだ提供しておらず、詳細は設定ファイルから掘り起こす必要がある。

開発者は重要な詳細に気づいた：GLMチームは今回初めてMLA（Multi-head Latent Attention）アーキテクチャを採用した。このアーキテクチャは以前DeepSeek-v2が最初に使用し有効性を検証しており、今度は智譜も追従した。

具体的な構造来看、GLM-4.7-Flashの深さはGLM-4.5 AirやQwen3-30B-A3Bに近いが、エキスパート数が異なる――64のエキスパートを使用し、活性化時には5つ（共有エキスパートを含む）のみを呼び出す。

発表から12時間以内に、HuggingFace、vLLMなどの主要プラットフォームがday0サポートを提供した。

公式は第一时间で华为昇腾NPUのサポートも提供した。

ローカルデプロイ方面では、開発者の実測では32GB統一メモリ、M5チップのAppleノートブックで43 token/sの速度で実行可能。

公式APIプラットフォームでは、ベース版GLM-4.7-Flashは完全無料（1つの同時接続制限）、高速版GLM-4.7-FlashXの価格も非常に手頃。

同類モデルと比較すると、コンテキスト長サポートと出力token価格に優位性があるが、現状ではレイテンシとスループットはまだ最適化が必要。

「いいね」「シェア」「ハート」

コメント欄であなたの考えを共有してください！

— 完 —

👑 年間「AI 100」製品ランキング 正式発表！

量子位智库は三大セクター——最強総合力の「フラッグシップAI 100」、最も将来性のある「イノベーションAI 100」と十大ホット赛道代表製品を通じて、2025年度国内C端AI製品の発展の脈絡とイノベーション成果を全面的に整理。

一括フォロー 👇 星印をつける

科技の先端進歩を毎日見る