賦予大模型「終身學習」能力，北航 CASE 框架：編輯千次不失憶，額外參數不到 1MB丨WWW'26

「星巴克換了新 CEO」、「最新科研成果發布」……

當大型語言模型（LLM）需要持續吸收新知識，在多次更新後容易陷入兩難困境：

要嘛因參數更新衝突而遺忘先前的知識內容，要嘛為避免遺忘而大量附加參數，導致占用龐大運算資源。

北京航空航天大學（北航）團隊最新提出的CASE 框架，給出了一個解法：給每次編輯「算分」，衝突的知識分開存，不衝突的共享空間；同時只調節對當前知識最敏感的「關鍵神經元」，避免無關參數被帶偏。

這一方法有效破解了大型語言模型「終身模型編輯」任務（Lifelong Model Editing）的核心痛點，研究發表了以《CASE: Conflict-assessed Knowledge-sensitive Neuron Tuning for Lifelong Model Editing》為題的論文，已入選國際頂會WWW 2026（The ACM Web Conference 2026）。

CASE 框架示意圖

實驗顯示，在對 LLM 進行 1000 次連續知識編輯後，CASE 比現有最優方法平均準確率提升近 10%，還能保持參數高效性，額外參數僅不到 1MB。

終身編輯的「兩難困境」：現有方法在多次更新模型後為何遺忘頻發？

大模型的「知識老化」和「事實幻覺」早已不是新鮮事，而「終身模型編輯」的目標更苛刻：讓 LLM 像人一樣持續學新東西或校正新知識，同時不丟失之前編輯過的知識、不干擾無關能力。

現有主流方法始終沒跳出兩個難題：

「盲目加參數」：為充分保留預訓練知識，現有大型模型編輯方法通常採用附加參數的方式進行知識更新。而在多批次的終身編輯過程中，現有方法要嘛按固定的批次數量無限制新增參數子空間，導致額外占用大量運算資源；要嘛一股腦地將大量知識塞進同一空間，卻不管這些是否會對模型產生衝突的更新，導致「災難性遺忘」。

「無差別調參數」：在每個批次特定知識更新時，現有方法僅將知識相關的參數定位到了「layer wise」，從而對不同的知識無差別更新該層的全部神經元。這導致本該重點調整的「關鍵神經元」梯度被分散，反而讓不同知識在局部無關神經元上的梯度衝突逐漸累積，造成編輯次數越多，遺忘越嚴重。CASE 團隊指出，上述問題的根源在於，現有方法忽略了對不同知識之間「編輯衝突」的量化——既沒算清兩次知識更新是否矛盾，也沒找準該調哪些神經元。

現有方法困境示意圖

核心突破：用「衝突量化」+「敏感調優」雙模組破局

CASE 框架架構圖

CASE 框架的關鍵，是給終身編輯加上「衝突評估大腦」和「精準調優工具」，兩個核心組件協同解決全域與局部衝突：

1. CAA 模組：給編輯衝突「算分」，合理分配參數空間

Conflict-Assessed Editing Allocation（CAA）模組的核心是「量化衝突、按需分配」——對於每次要編輯的新知識，借鑒多任務學習的梯度理論，利用梯度方向表示知識對模型的更新趨勢，先算清新知識與先前參數子空間是否矛盾，再決定是共享空間還是新建空間。

具體怎麼做？團隊設計了兩個關鍵指標，分別用於衡量新知識 (x_t, y_t) 與先前參數子空間各自相對於原始模型的更新方向：

參數子空間的更新方向（Eⁱ_t-1）：衡量現有第 i 個子空間經過前 t-1 次編輯後偏離初始權重的程度，反映這個空間已「記住」的知識；透過計算子空間參數矩陣 ΔWⁱ_t-1 與模型初始子空間 ΔW₀⁰ 的差異得到：

參數子空間更新方向公式

編輯梯度（G_t）：計算新知識 (x_t, y_t) 對模型初始子空間的損失梯度矩陣，代表新知識對模型的更新方向和幅度。

編輯梯度公式

再透過餘弦相似度

餘弦相似度公式

給「編輯衝突打分」，並按如下規則進行子空間分配：

衝突評分規則圖示

子空間分配規則

若 cⁱ_t ≥ 0：新知識與子空間現有知識相容，直接共享該空間，避免子空間碎片化；
若 cⁱ_t < 0：兩者存在衝突，新建一個子空間隔離，防止「舊知識被沖掉」。

這一設計從根源上解決了「盲目分空間」問題——既不會讓衝突知識擠在一起，也不會讓子空間數量失控，推理時的繞路難度自然大幅降低。

2. KNT 策略：只調「關鍵神經元」，消除局部衝突

Knowledge-sensitive Neuron Tuning（KNT）策略則聚焦「精準調優」——不是全量更新子空間參數，而是只找對當前知識「最敏感」的神經元，將知識定位從「layer wise」進一步細化到「neuron wise」，避免無關參數更新導致的參數空間不穩定。

團隊用 Fisher 資訊矩陣（FIM）給神經元「測敏感度」：Fisher 值越高，說明這個神經元的微小變化對模型預測影響越大，是當前知識的「關鍵節點」。為了兼顧效率，他們用對角線近似 FIM（計算量大幅降低），再透過梯度分布的熵動態設定閾值，生成「敏感神經元遮罩 M_t」——只讓高敏感神經元參與更新。

KNT 策略示意圖

此外，KNT 還加了知識激活正規化：把歷史知識的激活值量化存儲（float32 轉 int8，存儲量降 75%），更新時用 KL 散度約束新激活值與歷史激活值的差異，確保調優後「舊知識不跑偏」。

知識激活正規化示意圖

可以說，微調是給模型「重塑認知」，而 KNT 是給關鍵神經元『精準調音』——既改對了問題，又不打亂整體節奏。

實驗：1000 次編輯後準確率領先 10%，還能相容多模型

為驗證 CASE 的效果，團隊在兩個核心任務上做了對比實驗，基準模型包括 LLaMA2-7B、Qwen2.5-7B、LLaMA3-8B-Instruct，對比方法涵蓋 GRACE、WISE、MEMIT 等主流終身編輯框架。

實驗結果對比圖

1. 問答任務（ZsRE 數據集）：1000 次編輯不「掉線」

在需要連續更新實體關係的 ZsRE 終身知識編輯任務中：

100 次編輯時，CASE 在 LLaMA2-7B 上的編輯準確率比次優方法高 5 個百分點，局部性（無關知識保存率）達 100%；
1000 次編輯後，現有方法大多準確率大幅下滑（如 WISE 準確率從 90% 降到 77%），而 CASE 仍保持 95% 的準確率，比次優方法高 10%，且僅比 100 次編輯時下降 3%——幾乎做到「編輯千次不失憶」。

值得注意的是，GRACE 雖能保持高準確率，但泛化性極差（僅 26%），只能死記實體關係；而 CASE 的泛化性達 82%，能處理未見過的相似問題。

2. 幻覺修正（SelfCheckGPT 數據集）：perplexity 降 60%

在修正模型「胡言亂語」的任務中，CASE 表現更突出：

LLaMA2-7B 上，1000 次編輯後，CASE 的 perplexity（衡量文本 factual 一致性的指標，越低越好）從 3.12 降至 1.22，比次優方法低 60%；

Qwen2.5-7B 上，其他方法因衝突累積導致 perplexity 飆升，而 CASE 是唯一能穩定維持低 perplexity 的方法。

3. 效率優勢：參數少、推理快

CASE 的參數效率遠超同類方法：額外參數不到 1MB（WISE 需 86MB），推理時每疊代耗時僅 10.72 秒，與未編輯模型幾乎無差異——這意味著它能輕鬆部署到實際場景中。

效率對比圖

分析實驗：CASE 在不同設置下的穩定性

團隊測試了 CASE 在不同參數設置下的穩定性。整體來看，CASE 在不同超參數取值範圍內均能保持穩定的編輯性能，無需複雜調參即可適配場景需求。

穩定性分析圖

從下面部分實驗樣本可以看出，CASE 僅在極少數特定情況存在失敗案例。

失敗案例樣本

更多實驗樣本

隨著大型模型在金融、醫療、法律等領域落地，「知識持續更新」成為剛需：比如醫療指南更新、法律條文修訂、企業資訊變更，都需要模型及時跟進，且不能丟失之前的專業知識。

此前，這類需求要嘛靠「全量微調」（成本高、週期長），要嘛靠「RAG+ 提示詞」（效果不穩定）。而 CASE 透過突破終身模型編輯技術，提供了一個未來可能的更優解：

無需重訓模型，透過「衝突量化分配 + 敏感神經元調優」實現輕量級更新；
支援千級別的連續編輯，適合長期服役的大型模型；
相容主流開源 LLM（LLaMA、Qwen 等），遷移成本低。

團隊表示，未來將進一步探索 CASE 在多模態模型和非結構化數據編輯中的應用，讓大型模型的「終身學習」能力覆蓋更多場景。

— 完 —

正在招聘一名眼疾手快、關注 AI 的學術編輯實習生🎓

感興趣的小夥伴歡迎關注 👉 了解詳情

招聘資訊圖

🌟 點亮星標 🌟

科技前沿進展每日見