つい先ほど、梁文鋒氏が署名した新論文が深夜に衝撃を与える！DeepSeek-V4 新アーキテクチャ公開：MoE と相補的な新しいスパース化の方向性を提案、長文脈能力を大幅に拡張、推論とコード生成能力が強化

編集 | 聴雨

目が覚めると、DeepSeek がまた新論文を発表！

よく見てみると、著者のリストに梁文鋒（Liang Wenfeng）氏の名前も堂々と記載されていました。

この論文のタイトルは「Conditional Memory via Scalable Lookups: A New Dimension of Sparsity for Large Language Models（スケーラブルなルックアップによる条件付きメモリ：大規模言語モデルにおけるスパース性の新次元）」であり、静的なパターンの記憶と動的な計算を構造的に分離することによって Transformer のバックボーンを強化することを目的とした「Engram」という条件付きメモリモジュールを提案しています。

論文で提示された実験データも非常に驚くべきものです。

1. Engram は、知識、推論、コード、数学のタスクにおいて純粋な MoE モデルを上回る顕著な性能向上をもたらします。

2. U 字型スケーリング法則が存在します：純粋な MoE の性能は準最適であり、疎なパラメータの 20～25% を Engram に割り当てると最良の結果が得られます。

3. 長文脈の能力が大幅に向上し、グローバルなパターンと複雑な推論のために注意機構を解放できます。

コードと論文の全文はすでにオープンソース化されています。

論文アドレス：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

コードアドレス：https://github.com/deepseek-ai/Engram

なぜ大規模言語モデルに Engram が必要なのか？

スパース性（疎性）は、生物の脳の神経回路であれ、現代の大規模言語モデルであれ、「リソースを節約する」ために使われている知能システムの核心的な設計原則であり続けています。

AI の世界では、このアイデアは最も一般的に「混合専門家モデル」で体現されています。これは「条件付き計算」を通じてモデルの一部のパラメータのみを活性化させ、計算量を大幅に増やすことなくモデルの容量を数倍にするものです。MoE は現在、パラメータ規模と能力の拡張を推進するための重要な技術の 1 つであり、DeepSeek の独自モデルシリーズ（DeepSeek V2、DeepSeek V3 など）もスケーリングトレーニングのために高度な MoE 方を採用しています。

しかし、MoE にも限界があります。言語自体が非常に複雑であり、少なくとも 2 つの全く異なるタイプのタスクが含まれています。

1. 合成的推論：複雑な文構造や問題の推論を理解するなど、深く動的なニューラル計算が必要です。

2. 知識検索：大量のテキストは、固有名詞、固定的な表現、定型化されたパターンなど、高度に固定され反復的な内容で構成されています。

論文では、古典的な N-gram モデルがすでに、この種の局所的で反復的な言語規則を処理する場合、「テーブル参照（ルックアップ）」を使用するのが最も効率的であり、深層ニューラルネットワークはほとんど不要であることを証明していると述べています。

しかし、現在の Transformer にはこのようなネイティブな「テーブル参照能力」がないため、モデルが一般的なマルチトークン实体（エンティティ）を識別するたびに、数層の注意機構とフィードフォワードネットワークを消費します。これは、実行時に静的な辞書を何度も再構築するようなもので、計算の無駄遣いであり、より高度な推論に使用できるモデルの「シーケンスの深さ」を占有してしまいます。

Engram はどのように実装されているのか？

上記の問題を解決するために、DeepSeek は「条件付きメモリ」という新しいスパース化の方向性を提案しました。これは固定された知識を保存・検索するために特別に設計されています。MoE の条件付き計算とは完全に補完的に機能します。

- MoE は動的な推論と組み合わせ論理を担当します。

- Engram は静的な知識を担当し、直接テーブル参照するだけで済みます。

Engram は神経科学における核心的な概念であり、「記憶痕跡（エングラム）」を意味します。これは、言語モデルが推論中に過去に見た可能性のあるパターンや断片を検索するためのスケーラブルで検索可能なメモリモジュールです。

具体的な実装において、Engram モジュールは O(1) のルックアップ計算量を通じて静的パターンの記憶を動的な計算から分離し、4 つのコア技術を採用しています：モダン化されたハッシュ N-gram 埋め込み、トークナイザー圧縮、コンテキストアウェアゲーティング、マルチブランチ融合技術です。

具体的には以下の通りです。

1. トークナイザー圧縮：意味的に等価だが ID が異なるトークン（「Apple」と「apple」など）を統一された識別子に折りたたむマッピング関数を事前計算し、有効な語彙サイズを 23% 削減しました。

2. ハッシュ検索：局所的なコンテキスト（N-grams）をキーとして使用し、ハッシュ関数を通じて巨大な埋め込みテーブルから静的ベクトルを検索します。

3. コンテキストアウェアゲーティング：これが Engram の重要なイノベーションです。現在のレイヤーの隠れ状態をクエリとして使用し、検索されたメモリと意味的にマッチングさせます。検索された内容がコンテキストと矛盾する場合、ゲート値はゼロに近づき、ハッシュの衝突によって生じるノイズを抑制します。

4. ハイブリッドブランチ統合：マルチブランチアーキテクチャ（mHC など）向けに最適化されており、パラメータ共有戦略（埋め込みテーブルと値射影を共有し、キー射影は独立させる）を通じて表現力と計算効率のバランスをとっています。

Engram は通常、Transformer の初期のレイヤー（Layer 2 や Layer 6 など）に挿入されます。これを行う利点は、一方で静的パターンの再構成作業をオフロードしてバックボーンネットワークの負担を軽減できること、もう一方で十分なコンテキスト情報を維持し、ゲーティングメカニズムがどの記憶を使用し、どれを無視すべきかをより賢く判断できるようにすることです。

Engram の記憶容量は「大きければ大きいほど良い」というものではなく、MoE 専門家の容量と慎重に見合わせる必要があります。Sparsity Allocation（スパース性割り当て）の法則に従って、両者の比率を合理的に区分することで、大規模モデルのパラメータ利用率を保証しつつ、計算効率を最大化します。つまり、すべての記憶とすべての専門家が最大限の役割を果たすようにするのです。

実験結果は衝撃的です。

推論、コード、長文脈能力が大幅に向上

この論文では、Engram を 270 億パラメータにスケーリングし、MoE のベースラインとパラメータと FLOPs を厳密に合わせました。結果は以下の通りです。

- 知識集約型タスク（MMLU、CMMLU、MMLU-Pro）：1.8～4.0 点の性能向上。

- 一般推論タスク（BBH、ARC-Challenge、DROP）：改善はより顕著で、最大 +5 点。

- コードと数学の能力（HumanEval、MATH、GSM8K）：平均 2～3 点の向上。

特筆すべきは、Engram が知識集約型タスクにおいて純粋な MoE モデルよりも明らかに優れていることです。理由は直感的です。静的パターンの記憶を効率的なルックアップメカニズムに委ねるため、毎回ニューラルネットワークで「再計算」する必要がなく、浅い層での反復計算が削減されるからです。

さらに重要なのは、Engram が長文脈能力を大幅に拡張し、長文テキストタスク（LongPPL、RULER など）で優れたパフォーマンスを発揮することです。特に、マルチホップ検索やチェーン推論などのシナリオにおいて顕著です。例えば、Multi-Query NIAH 指標は 84.2 から 97.0 に、Variable Tracking は 77.0 から 89.0 に向上しました。