剛剛,梁文鋒署名新論文深夜引爆!DeepSeek-V4 新架構曝光:提出新的稀疏化方向,與 MoE 互補,長上下文能力顯著擴展,推理程式碼能力更強了

圖片圖片

編輯 | 聽雨

一覺醒來,DeepSeek 又發新論文了!

仔細一看作者,梁文鋒的名字也赫然出現在其中。

圖片

這篇論文題為《透過可擴展查找實現的條件記憶:大型語言模型稀疏性的新維度》,重點在於提出了 Engram ——這是一種條件記憶模組,旨在透過將靜態模式儲存與動態計算在結構上分離,來增強 Transformer 主幹網路。

圖片

論文給出的實驗數據也相當驚豔:

1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著效能提升,均超過純 MoE 模型。

2、存在 U 形擴展法則:純 MoE 效能次優,將 20–25% 的稀疏參數分配給 Engram,效果最佳。

3、長上下文能力提升明顯,能釋放注意力用於全域模式和複雜推理。

程式碼和論文全文均已開源:

論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

程式碼地址:https://github.com/deepseek-ai/Engram

為什麼大型語言模型需要 Engram ?

稀疏性一直是智慧系統的核心設計原則,無論是生物大腦的神經迴路,還是現代大型語言模型都在用它來「省資源」。

在 AI 裡,這個思想最常見的體現就是混合專家模型——也就是透過「條件計算」讓模型只啟動部分參數,从而在不增加太多計算量的情況下,把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也採用了先進的 MoE 方法進行擴展訓練。

但 MoE 也有其局限性。語言本身非常複雜,至少包含兩類截然不同的任務:

1、組合式推理:需要深層、動態的神經計算,比如理解複雜句子結構或推理問題;

2、知識檢索:大量文本都是高度固定、重複的內容,比如命名實體、固定表達、程式化模式。

論文中提出,經典的 N-gram 模型已經證明,處理這種局部、重複的語言規律,用「查表」效率最高,幾乎不需要動深層神經網路。

然而現在的 Transformer 並沒有這種原生「查表能力」,所以模型每次要識別一個常見的多 token 實體,都要消耗好幾層注意力和前饋網路,這就像在運行時重複重建一個靜態字典,既浪費計算,又佔用模型的「序列深度」,原本可以用來做更高級的推理。

Engram 是如何實現的?

為了解決上述問題,DeepSeek 提出了一個新的稀疏化方向——條件記憶,專門用來儲存和查找固定知識。它和 MoE 的條件計算完全互補:

- MoE 負責動態推理和組合邏輯;

- Engram 負責靜態知識,直接查表就行。

Engram 是神經科學中的一個核心概念,意為「記憶痕跡」,它是一個可擴展、可查找的記憶模組,用於語言模型在推論過程中過去可能已經見過的模式或片段。

在具體實作上,Engram 模組透過 O(1) 的查找複雜度將靜態模式儲存從動態計算中分離出來,採用了四項核心技術:現代化的哈希 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。

具體來看:

1、分詞器壓縮:預先計算映射函數,將語意等價但 ID 不同的詞項(如 "Apple" 和 "apple")折疊為統一識別碼,將有效詞表大小減少了 23%。

2、哈希檢索:利用局部上下文(N-grams)作為鍵,透過哈希函數在巨大的嵌入表中檢索靜態向量。

3、上下文感知門控:這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query,與檢索到的記憶體進行語意匹配。如果檢索內容與上下文矛盾,門控值會趨近於零,從而抑制哈希衝突帶來的噪聲。

4、混合分枝集成:專門針對多分枝架構(如 mHC)進行了最佳化,透過參數共享策略(共享 Embedding 表和 Value 投影,保持獨立 Key 投影)平衡了表達能力與計算效率。

圖片

Engram 通常會插在 Transformer 的前期層,比如 Layer 2 或 Layer 6。這樣做的好處是:一方面可以把靜態模式的重建工作卸載掉,減輕主幹網路的負擔;另一方面又能保留足夠的上下文資訊,讓門控機制更聰明地判斷哪些記憶該用,哪些該忽略。

Engram 的記憶容量並不是越大越好,它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法則,合理劃分兩者比例,既保證大模型的參數利用率,又最大化計算效率——簡單來說,就是讓每一份記憶和每一位專家都發揮最大作用。

實驗結果很驚豔:

推理、程式碼、長上下文能力顯著提升

論文把 Engram 擴展到 270 億參數,嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示:

- 知識密集型任務(MMLU、CMMLU、MMLU-Pro):效能提升 1.8–4.0 分不等;

- 通用推理任務(BBH、ARC-Challenge、DROP):提升更明顯,最高 +5 分;

- 程式碼和數學能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。

圖片

值得注意的是,Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀:它把靜態模式的記憶交給了高效的查找機制,而不是每次都用神經網路「重算」,減少了淺層的重複計算。

更重要的是,Engram 也顯著擴展了長上下文能力,在長文本任務(如 LongPPL、RULER)表現突出,尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0,Variable Tracking 從 77.0 提升到 89.0。

圖片

原因是 Engram 處理了大量局部、靜態的依賴,釋放了注意力機制去處理全域上下文,從而在長序列中更穩、更準。

圖片

此外,團隊還發現了 MoE 和 Engram 容量分配中的 U 形擴展法則:

- 當 Engram 記憶容量太小或太大時,效能都不理想

- 將 20–25% 的稀疏參數分配給 Engram,效果最佳

網友:Engram 可能是 DeepSeek-V4 型號的基礎技術!

在 Reddit、X 等平台上,DeepSeek 的新論文也立刻引發了網友的熱烈討論。

其中最廣泛的一個猜測就是:Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。

圖片圖片

很多網友認為,Engram 這個方法很有趣,其特點在於讓模型架構處理「記憶模式查找」和「神經計算推理」兩塊職責分離,從而開啟了新的稀疏性方向。

圖片

也有網友表示,這種方法比線性注意力機制要好得多。

圖片

DeepSeek 的深夜放大招,也讓部分網友直言:中國大模型團隊的創新性真令人害怕。

圖片

那麼各位大佬們,你們如何看待 DeepSeek 的這項新技術?

歡迎在評論區留下你的看法。

圖片

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.