賦予大模型「終身學習」能力,北航 CASE 框架:編輯千次不失憶,額外參數不到 1MB丨WWW'26

「星巴克換了新 CEO」、「最新科研成果發布」……

當大型語言模型(LLM)需要持續吸收新知識,在多次更新後容易陷入兩難困境:

要嘛因參數更新衝突而遺忘先前的知識內容,要嘛為避免遺忘而大量附加參數,導致占用龐大運算資源。

北京航空航天大學(北航)團隊最新提出的CASE 框架,給出了一個解法:給每次編輯「算分」,衝突的知識分開存,不衝突的共享空間;同時只調節對當前知識最敏感的「關鍵神經元」,避免無關參數被帶偏。

這一方法有效破解了大型語言模型「終身模型編輯」任務(Lifelong Model Editing)的核心痛點,研究發表了以《CASE: Conflict-assessed Knowledge-sensitive Neuron Tuning for Lifelong Model Editing》為題的論文,已入選國際頂會WWW 2026(The ACM Web Conference 2026)。

CASE 框架示意圖

實驗顯示,在對 LLM 進行 1000 次連續知識編輯後,CASE 比現有最優方法平均準確率提升近 10%,還能保持參數高效性,額外參數僅不到 1MB。

終身編輯的「兩難困境」:現有方法在多次更新模型後為何遺忘頻發?

大模型的「知識老化」和「事實幻覺」早已不是新鮮事,而「終身模型編輯」的目標更苛刻:讓 LLM 像人一樣持續學新東西或校正新知識,同時不丟失之前編輯過的知識、不干擾無關能力。

現有主流方法始終沒跳出兩個難題:

「盲目加參數」:為充分保留預訓練知識,現有大型模型編輯方法通常採用附加參數的方式進行知識更新。而在多批次的終身編輯過程中,現有方法要嘛按固定的批次數量無限制新增參數子空間,導致額外占用大量運算資源;要嘛一股腦地將大量知識塞進同一空間,卻不管這些是否會對模型產生衝突的更新,導致「災難性遺忘」。

「無差別調參數」:在每個批次特定知識更新時,現有方法僅將知識相關的參數定位到了「layer wise」,從而對不同的知識無差別更新該層的全部神經元。這導致本該重點調整的「關鍵神經元」梯度被分散,反而讓不同知識在局部無關神經元上的梯度衝突逐漸累積,造成編輯次數越多,遺忘越嚴重。CASE 團隊指出,上述問題的根源在於,現有方法忽略了對不同知識之間「編輯衝突」的量化——既沒算清兩次知識更新是否矛盾,也沒找準該調哪些神經元。

現有方法困境示意圖

核心突破:用「衝突量化」+「敏感調優」雙模組破局

CASE 框架架構圖

CASE 框架的關鍵,是給終身編輯加上「衝突評估大腦」和「精準調優工具」,兩個核心組件協同解決全域與局部衝突:

1. CAA 模組:給編輯衝突「算分」,合理分配參數空間

Conflict-Assessed Editing Allocation(CAA)模組的核心是「量化衝突、按需分配」——對於每次要編輯的新知識,借鑒多任務學習的梯度理論,利用梯度方向表示知識對模型的更新趨勢,先算清新知識與先前參數子空間是否矛盾,再決定是共享空間還是新建空間。

具體怎麼做?團隊設計了兩個關鍵指標,分別用於衡量新知識 (xt, yt) 與先前參數子空間各自相對於原始模型的更新方向:

  • 參數子空間的更新方向(Eit-1):衡量現有第 i 個子空間經過前 t-1 次編輯後偏離初始權重的程度,反映這個空間已「記住」的知識;透過計算子空間參數矩陣 ΔWit-1 與模型初始子空間 ΔW00 的差異得到:

參數子空間更新方向公式

編輯梯度(Gt):計算新知識 (xt, yt) 對模型初始子空間的損失梯度矩陣,代表新知識對模型的更新方向和幅度。

編輯梯度公式

再透過餘弦相似度

餘弦相似度公式

給「編輯衝突打分」,並按如下規則進行子空間分配:

衝突評分規則圖示

子空間分配規則

  • 若 cit ≥ 0:新知識與子空間現有知識相容,直接共享該空間,避免子空間碎片化;
  • 若 cit < 0:兩者存在衝突,新建一個子空間隔離,防止「舊知識被沖掉」。

這一設計從根源上解決了「盲目分空間」問題——既不會讓衝突知識擠在一起,也不會讓子空間數量失控,推理時的繞路難度自然大幅降低。

2. KNT 策略:只調「關鍵神經元」,消除局部衝突

Knowledge-sensitive Neuron Tuning(KNT)策略則聚焦「精準調優」——不是全量更新子空間參數,而是只找對當前知識「最敏感」的神經元,將知識定位從「layer wise」進一步細化到「neuron wise」,避免無關參數更新導致的參數空間不穩定。

團隊用 Fisher 資訊矩陣(FIM)給神經元「測敏感度」:Fisher 值越高,說明這個神經元的微小變化對模型預測影響越大,是當前知識的「關鍵節點」。為了兼顧效率,他們用對角線近似 FIM(計算量大幅降低),再透過梯度分布的熵動態設定閾值,生成「敏感神經元遮罩 Mt」——只讓高敏感神經元參與更新。

KNT 策略示意圖

此外,KNT 還加了知識激活正規化:把歷史知識的激活值量化存儲(float32 轉 int8,存儲量降 75%),更新時用 KL 散度約束新激活值與歷史激活值的差異,確保調優後「舊知識不跑偏」。

知識激活正規化示意圖

可以說,微調是給模型「重塑認知」,而 KNT 是給關鍵神經元『精準調音』——既改對了問題,又不打亂整體節奏。

實驗:1000 次編輯後準確率領先 10%,還能相容多模型

為驗證 CASE 的效果,團隊在兩個核心任務上做了對比實驗,基準模型包括 LLaMA2-7B、Qwen2.5-7B、LLaMA3-8B-Instruct,對比方法涵蓋 GRACE、WISE、MEMIT 等主流終身編輯框架。

實驗結果對比圖

1. 問答任務(ZsRE 數據集):1000 次編輯不「掉線」

在需要連續更新實體關係的 ZsRE 終身知識編輯任務中:

  • 100 次編輯時,CASE 在 LLaMA2-7B 上的編輯準確率比次優方法高 5 個百分點,局部性(無關知識保存率)達 100%;
  • 1000 次編輯後,現有方法大多準確率大幅下滑(如 WISE 準確率從 90% 降到 77%),而 CASE 仍保持 95% 的準確率,比次優方法高 10%,且僅比 100 次編輯時下降 3%——幾乎做到「編輯千次不失憶」。

值得注意的是,GRACE 雖能保持高準確率,但泛化性極差(僅 26%),只能死記實體關係;而 CASE 的泛化性達 82%,能處理未見過的相似問題。

2. 幻覺修正(SelfCheckGPT 數據集):perplexity 降 60%

在修正模型「胡言亂語」的任務中,CASE 表現更突出:

  • LLaMA2-7B 上,1000 次編輯後,CASE 的 perplexity(衡量文本 factual 一致性的指標,越低越好)從 3.12 降至 1.22,比次優方法低 60%;

Qwen2.5-7B 上,其他方法因衝突累積導致 perplexity 飆升,而 CASE 是唯一能穩定維持低 perplexity 的方法。

3. 效率優勢:參數少、推理快

CASE 的參數效率遠超同類方法:額外參數不到 1MB(WISE 需 86MB),推理時每疊代耗時僅 10.72 秒,與未編輯模型幾乎無差異——這意味著它能輕鬆部署到實際場景中。

效率對比圖

分析實驗:CASE 在不同設置下的穩定性

團隊測試了 CASE 在不同參數設置下的穩定性。整體來看,CASE 在不同超參數取值範圍內均能保持穩定的編輯性能,無需複雜調參即可適配場景需求。

穩定性分析圖

從下面部分實驗樣本可以看出,CASE 僅在極少數特定情況存在失敗案例。

失敗案例樣本

更多實驗樣本

隨著大型模型在金融、醫療、法律等領域落地,「知識持續更新」成為剛需:比如醫療指南更新、法律條文修訂、企業資訊變更,都需要模型及時跟進,且不能丟失之前的專業知識。

此前,這類需求要嘛靠「全量微調」(成本高、週期長),要嘛靠「RAG+ 提示詞」(效果不穩定)。而 CASE 透過突破終身模型編輯技術,提供了一個未來可能的更優解:

  • 無需重訓模型,透過「衝突量化分配 + 敏感神經元調優」實現輕量級更新;
  • 支援千級別的連續編輯,適合長期服役的大型模型;
  • 相容主流開源 LLM(LLaMA、Qwen 等),遷移成本低。

團隊表示,未來將進一步探索 CASE 在多模態模型和非結構化數據編輯中的應用,讓大型模型的「終身學習」能力覆蓋更多場景。

— 完 —

正在招聘一名眼疾手快、關注 AI 的學術編輯實習生🎓

感興趣的小夥伴歡迎關注 👉 了解詳情

招聘資訊圖

🌟 點亮星標 🌟

科技前沿進展每日見


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.