剛剛，梁文鋒署名新論文深夜引爆！DeepSeek-V4 新架構曝光：提出新的稀疏化方向，與 MoE 互補，長上下文能力顯著擴展，推理程式碼能力更強了

編輯 | 聽雨

一覺醒來，DeepSeek 又發新論文了！

仔細一看作者，梁文鋒的名字也赫然出現在其中。

這篇論文題為《透過可擴展查找實現的條件記憶：大型語言模型稀疏性的新維度》，重點在於提出了 Engram ——這是一種條件記憶模組，旨在透過將靜態模式儲存與動態計算在結構上分離，來增強 Transformer 主幹網路。

論文給出的實驗數據也相當驚豔：

1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著效能提升，均超過純 MoE 模型。

2、存在 U 形擴展法則：純 MoE 效能次優，將 20–25% 的稀疏參數分配給 Engram，效果最佳。

3、長上下文能力提升明顯，能釋放注意力用於全域模式和複雜推理。

程式碼和論文全文均已開源：

論文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

程式碼地址：https://github.com/deepseek-ai/Engram

為什麼大型語言模型需要 Engram ？

稀疏性一直是智慧系統的核心設計原則，無論是生物大腦的神經迴路，還是現代大型語言模型都在用它來「省資源」。

在 AI 裡，這個思想最常見的體現就是混合專家模型——也就是透過「條件計算」讓模型只啟動部分參數，从而在不增加太多計算量的情況下，把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一，DeepSeek 自家系列模型（如 DeepSeek V2、DeepSeek V3 等）也採用了先進的 MoE 方法進行擴展訓練。

但 MoE 也有其局限性。語言本身非常複雜，至少包含兩類截然不同的任務：

1、組合式推理：需要深層、動態的神經計算，比如理解複雜句子結構或推理問題；

2、知識檢索：大量文本都是高度固定、重複的內容，比如命名實體、固定表達、程式化模式。

論文中提出，經典的 N-gram 模型已經證明，處理這種局部、重複的語言規律，用「查表」效率最高，幾乎不需要動深層神經網路。

然而現在的 Transformer 並沒有這種原生「查表能力」，所以模型每次要識別一個常見的多 token 實體，都要消耗好幾層注意力和前饋網路，這就像在運行時重複重建一個靜態字典，既浪費計算，又佔用模型的「序列深度」，原本可以用來做更高級的推理。

Engram 是如何實現的？

為了解決上述問題，DeepSeek 提出了一個新的稀疏化方向——條件記憶，專門用來儲存和查找固定知識。它和 MoE 的條件計算完全互補：

- MoE 負責動態推理和組合邏輯；

- Engram 負責靜態知識，直接查表就行。

Engram 是神經科學中的一個核心概念，意為「記憶痕跡」，它是一個可擴展、可查找的記憶模組，用於語言模型在推論過程中過去可能已經見過的模式或片段。

在具體實作上，Engram 模組透過 O(1) 的查找複雜度將靜態模式儲存從動態計算中分離出來，採用了四項核心技術：現代化的哈希 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。

具體來看：

1、分詞器壓縮：預先計算映射函數，將語意等價但 ID 不同的詞項（如 "Apple" 和 "apple"）折疊為統一識別碼，將有效詞表大小減少了 23%。

2、哈希檢索：利用局部上下文（N-grams）作為鍵，透過哈希函數在巨大的嵌入表中檢索靜態向量。

3、上下文感知門控：這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query，與檢索到的記憶體進行語意匹配。如果檢索內容與上下文矛盾，門控值會趨近於零，從而抑制哈希衝突帶來的噪聲。

4、混合分枝集成：專門針對多分枝架構（如 mHC）進行了最佳化，透過參數共享策略（共享 Embedding 表和 Value 投影，保持獨立 Key 投影）平衡了表達能力與計算效率。

Engram 通常會插在 Transformer 的前期層，比如 Layer 2 或 Layer 6。這樣做的好處是：一方面可以把靜態模式的重建工作卸載掉，減輕主幹網路的負擔；另一方面又能保留足夠的上下文資訊，讓門控機制更聰明地判斷哪些記憶該用，哪些該忽略。

Engram 的記憶容量並不是越大越好，它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation（稀疏性分配）法則，合理劃分兩者比例，既保證大模型的參數利用率，又最大化計算效率——簡單來說，就是讓每一份記憶和每一位專家都發揮最大作用。

實驗結果很驚豔：

推理、程式碼、長上下文能力顯著提升

論文把 Engram 擴展到 270 億參數，嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示：

- 知識密集型任務（MMLU、CMMLU、MMLU-Pro）：效能提升 1.8–4.0 分不等；

- 通用推理任務（BBH、ARC-Challenge、DROP）：提升更明顯，最高 +5 分；

- 程式碼和數學能力（HumanEval、MATH、GSM8K）：平均提升 2–3 分。

值得注意的是，Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀：它把靜態模式的記憶交給了高效的查找機制，而不是每次都用神經網路「重算」，減少了淺層的重複計算。

更重要的是，Engram 也顯著擴展了長上下文能力，在長文本任務（如 LongPPL、RULER）表現突出，尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0，Variable Tracking 從 77.0 提升到 89.0。

原因是 Engram 處理了大量局部、靜態的依賴，釋放了注意力機制去處理全域上下文，從而在長序列中更穩、更準。

此外，團隊還發現了 MoE 和 Engram 容量分配中的 U 形擴展法則：

- 當 Engram 記憶容量太小或太大時，效能都不理想

- 將 20–25% 的稀疏參數分配給 Engram，效果最佳

網友：Engram 可能是 DeepSeek-V4 型號的基礎技術！

在 Reddit、X 等平台上，DeepSeek 的新論文也立刻引發了網友的熱烈討論。

其中最廣泛的一個猜測就是：Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。

很多網友認為，Engram 這個方法很有趣，其特點在於讓模型架構處理「記憶模式查找」和「神經計算推理」兩塊職責分離，從而開啟了新的稀疏性方向。

也有網友表示，這種方法比線性注意力機制要好得多。

DeepSeek 的深夜放大招，也讓部分網友直言：中國大模型團隊的創新性真令人害怕。

那麼各位大佬們，你們如何看待 DeepSeek 的這項新技術？

歡迎在評論區留下你的看法。

剛剛，梁文鋒署名新論文深夜引爆！DeepSeek-V4 新架構曝光：提出新的稀疏化方向，與 MoE 互補，長上下文能力顯著擴展，推理程式碼能力更強了

相關文章推薦

分享網址