智譜の新モデルもDeepSeekのMLAを使用、Apple M5で実行可能

智譜AIが上場後、再び新成果を発表。

オープンソースの軽量級大規模言語モデルGLM-4.7-Flashを公開し、前世代のGLM-4.5-Flashを直接置き換え、APIは無料で開放されている。

画像

これは30Bの総パラメータ、わずか3Bの活性化パラメータを持つ混合エキスパート(MoE)アーキテクチャのモデルで、公式は「ローカルプログラミングとインテリジェントエージェントアシスタント」と位置付けている。

SWE-bench Verifiedコード修正テストでは、GLM-4.7-Flashが59.2点を獲得し、「人類最後の試験」などの評価でも同規模のQwen3-30BやGPT-OSS-20Bを显著に上回った。

画像

昨年12月に発表されたフラッグシップモデルGLM-4.7の軽量化バージョンとして、GLM-4.7-FlashはGLM-4シリーズのコーディングと推論のコア能力を継承し、効率性を専門的に最適化している。

プログラミング以外にも、公式はこのモデルをクリエイティブライティング、翻訳、長文コンテキストタスク、さらにはロールプレイシーンでの使用を推奨している。

30Bパラメータでわずか3Bを活性化、MLAアーキテクチャが初登場

GLM-4.7-Flashはこのシリーズの「混合思考モデル」の設計を踏襲している。

総パラメータ量は300億だが、実際の推論時には約30億パラメータのみを活性化し、モデルの能力を維持しながら計算コストを大幅に削減している。

コンテキストウィンドウは200Kをサポートし、クラウドAPI呼び出しとローカルデプロイの両方が可能。

現在、公式は技術レポートをまだ提供しておらず、詳細は設定ファイルから掘り起こす必要がある。

画像

開発者は重要な詳細に気づいた:GLMチームは今回初めてMLA(Multi-head Latent Attention)アーキテクチャを採用した。このアーキテクチャは以前DeepSeek-v2が最初に使用し有効性を検証しており、今度は智譜も追従した。

具体的な構造来看、GLM-4.7-Flashの深さはGLM-4.5 AirやQwen3-30B-A3Bに近いが、エキスパート数が異なる――64のエキスパートを使用し、活性化時には5つ(共有エキスパートを含む)のみを呼び出す。

画像

発表から12時間以内に、HuggingFace、vLLMなどの主要プラットフォームがday0サポートを提供した。

画像画像

公式は第一时间で华为昇腾NPUのサポートも提供した。

画像

ローカルデプロイ方面では、開発者の実測では32GB統一メモリ、M5チップのAppleノートブックで43 token/sの速度で実行可能。

画像

公式APIプラットフォームでは、ベース版GLM-4.7-Flashは完全無料(1つの同時接続制限)、高速版GLM-4.7-FlashXの価格も非常に手頃。

画像

同類モデルと比較すると、コンテキスト長サポートと出力token価格に優位性があるが、現状ではレイテンシとスループットはまだ最適化が必要。

画像

HuggingFace:https://huggingface.co/zai-org/GLM-4.7-Flash

参考リンク:[1]https://x.com/Zai_org/status/2013261304060866758

「いいね」「シェア」「ハート」

コメント欄であなたの考えを共有してください!

👑 年間「AI 100」製品ランキング 正式発表!

量子位智库は三大セクター——最強総合力の「フラッグシップAI 100」、最も将来性のある「イノベーションAI 100」と十大ホット赛道代表製品を通じて、2025年度国内C端AI製品の発展の脈絡とイノベーション成果を全面的に整理。

画像

一括フォロー 👇 星印をつける

科技の先端進歩を毎日見る


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.