“刪掉一層”,模型反而更懂任務?哈工深 | 楊朔團隊發現 VLM 中的任務干擾層
近年來,視覺-語言模型在多模態理解與推理任務上取得了飛速進展。從數學推理、科學問答,到複雜視覺理解與跨模態推斷,主流模型通常通過不斷擴大規模、加深層數來提升整體能力。
「在這一發展路徑下,一個幾乎被默認接受的前提是:模型中的每一層都是有意義的,它們共同構成了模型能力不可或缺的組成部分。」
然而,在具體任務的實踐中,這一假設是否始終成立,其實並未被系統檢驗。來自哈爾濱工業大學(深圳)的「楊朔教授團隊」注意到,在某些下游任務上,模型表現出的失敗模式並不像是能力不足,更像是受到內部計算路徑的牽制與干擾。這一觀察引出了一個看似簡單卻極具挑戰性的問題:
「在預訓練完成的視覺-語言模型中,是否存在某些層,在特定任務上並未發揮正向作用,甚至會系統性地抑制模型性能?」
圍繞這一問題,「哈工深楊朔團隊」發現了視覺-語言模型中“任務干擾層”這一反直覺現象,並在此基礎上提出了 TaLo,一種無需訓練的測試時層級幹預方法,用以釋放模型在特定任務上的潛在能力。
論文:https://arxiv.org/abs/2602.00500
程式碼:https://mikuz12.github.io/Do_All_Individual_Layers_Help
作者:Zhiming Liu, Yujie Wei, Lei Feng, Xiu Su, Xiaobo Xia, Weili Guan, Zeke Xie, Shuo Yang
機構:哈爾濱工業大學(深圳)、哈爾濱工業大學、東南大學、中南大學、新加坡國立大學、香港科技大學(廣州)
一、背景和出發點
在主流視覺-語言模型的設計中,不同下游任務通常共享同一套固定的層級計算結構,推理時默認完整執行所有 Transformer 層。這種統一的計算路徑在工程上簡潔高效,但也意味著模型無法根據任務差異,對中間計算過程進行有針對性的調節。
從已有研究來看,關於模型層級結構的分析多集中於“層重要性”或“逐層退化敏感性”,其結論往往呈現出整體性能隨層移除單調下降的趨勢。然而,這類分析很少關注一個更細粒度的問題:
「在特定任務條件下,某些中間層是否可能引入與任務目標不一致的信息路由,從而影響最終決策。」
基於這一動機,「哈工大深圳的楊朔教授團隊」從層級幹預的角度出發,對模型內部的信息路由路徑進行逐層探查,試圖刻畫不同任務對中間層計算的實際依賴關係,並為後續的結構化分析與測試時調整提供依據。「圖1」在不同視覺-語言模型中,對特定模型層進行幹預後在多項任務指標上的性能對比。每個子圖分別對應 Qwen2-VL-2B、LLaVA-NEXT-8B 和 InternVL-40B,不同顏色表示對不同層進行幹預的結果,虛線表示原始模型。可以觀察到,在不同模型中,選擇合適的層進行幹預能夠在多項任務上同時優於基線,表明該現象具有跨模型的一致性。
二、任務干擾層現象的發現
為了量化單層對特定任務的影響,作者採用了層級幹預的實驗範式:對每一層單獨施加幹預,比較幹預前後的任務性能變化。如果某層被幹預後性能上升,就說明該層在該任務上呈現出“干擾效應”。
在實現上,論文重點幹預的是 「LLM 主幹中的 self-attention 子模塊」,並保留殘差連接,以避免模型整體崩潰。典型的兩種幹預形式分別是:
「Parameter Zeroing」:將第l 層 attention 的參數置零,使其注意力路徑近似失效(而殘差路徑仍保留)。
「Uniform Scaling」:將注意力操作退化為對輸入特徵的全局平均(論文用它作為與 zeroing 相互印證的另一種幹預方式)。
在多個模型與基準上,研究者觀察到大量任務在“跳過某一層”後出現顯著收益,說明這類層不是“無貢獻”,而是在特定任務上「主動限制」了模型的潛在表現。作者將其命名為 「Task-Interfering Layers(任務干擾層)」。
實驗結果顯示,這種現象並非偶然。在 LLaVA、Qwen-VL、InternVL 等不同規模和架構的模型中,大量任務在“跳過”某一特定層後都出現了顯著的性能提升。
以 LLaVA-Next-8B 為例,在對 30 餘個任務逐層進行幹預後,「超過一半」的任務在至少一個層被幹預時,性能提升幅度超過 5%。這表明,在預訓練過程中形成的層級表示,並不一定對所有下游任務都保持一致的適配性。作者將這類在特定任務中抑制性能的層稱為“任務干擾層”。「圖2」在 LLaVA-NEXT 模型中,對不同層逐層施加幹預後,各任務類別相對於預訓練基線的性能變化熱力圖。橫軸表示被幹預的層號,縱軸表示任務類別,顏色表示性能變化幅度。可以觀察到,不同任務對層的敏感性呈現出明顯差異,且在多數任務中存在少數層,其幹預可帶來顯著性能提升,進一步表明模型中存在任務相關的干擾層。
三、任務與層之間的結構化關係
在確認任務干擾層現象普遍存在之後,研究的重點進一步轉向一個更本質的問題:這些干擾層是隨機出現的,還是與任務本身的能力需求存在內在關聯?為此,研究團隊提出了“任務-層交互向量”這一表示方式,用來系統刻畫不同任務對模型各層的敏感性。在確認任務干擾層廣泛存在之後,論文進一步追問:這種干擾是隨機噪聲,還是與任務能力結構相關?為此,作者提出 「Task-Layer Interaction Vector(任務-層交互向量)」,把“任務對各層的敏感性”變成一個「可計算、可比較的向量」。
對一個包含 L 層的模型,給定任務 T,定義其交互向量為 v_T ∈ R^L,其中第 l 維定義為幹預第 l 層後的性能變化:Δv_T(l)。
直觀上,如果 Δv_T(l) > 0,表示幹預該層後準確率上升,該層對任務表現為“干擾”;如果 Δv_T(l) < 0,則該層對任務是正向貢獻。
有了這一表示後,作者用任務間交互向量的相關性來刻畫“能力相近的任務是否會呈現相似的層敏感性模式”。對任務 T_i, T_j,研究者們計算相關係數 ρ(T_i, T_j) 並基於距離 d(T_i, T_j) 做聚類與可視化。
研究團隊在 6 個綜合數據集,超過 100 個任務上進行了聚類的實驗,結果顯示數學推理、科學推理、感知類等相關任務會自然形成不同簇,說明「干擾層現象與任務的能力需求存在結構性對應關係」,也就是說,對模型能力上要求相近的任務,有著“相似的”Task-Layer Interaction Vector,這種干擾層現象並非偶然的波動。
此外,作者進一步通過指標驗證了聚類的穩定性與可信性(如 Silhouette Score),且 Score > 0.5,表明該聚類結果具有較好的可靠性。(具體聚類結果請見論文附錄或項目主頁)「圖3」基於 Task-Layer Interaction Vector 聚類結果的可視化圖
此外,為排除“幹預實現細節導致的假象”,論文還比較了 zeroing 與 uniform scaling 兩種幹預在大量 task-layer 對上的一致性,結果展示了顯著的正相關,說明任務干擾層更可能是模型內部的穩定屬性,而不是針對某種特定幹預方法的產物。「圖4」不同幹預方法的相關性圖
四、TaLo:一種測試時的任務自適應機制
基於上述發現,研究團隊進一步提出了 「TaLo」([Ta]sk-Adaptive [L]ayer Knockout),一種在測試階段運行的任務自適應方法,作為對任務干擾層現象的“操作化驗證”:如果某些任務確實被特定層拖累,那麼在測試時自動找出這層並跳過它,理應能帶來穩定收益。TaLo 的設計強調免訓練與即插即用的特性,關鍵在於不做參數更新,也不引入額外模塊。
「Talo 方法包含三大步驟:」
首先給定一個 L 層模型 M,從目標任務採樣一個小規模 probing 集 P_probe,在原始模型上得到基線分數。
然後逐層施加幹預(論文主要用 zeroing,記作 M_l),得到幹預模型,並計算該層帶來的增益 ΔS_l = S(M_l) - S(M)。
最終選擇帶來最大正向增益的層 l* 作為該任務的干擾層候選:l* = argmax_l ΔS_l。
當沒有明顯的正向峰值(低於閾值)時,TaLo 會保留原模型不做修改;而當找到 l* 後,TaLo 在該任務的後續推理中固定跳過該層,並在獨立的測試樣本上報告最終性能。
由於前面已經證明了任務-層敏感性模式具有結構性與可遷移性,用少量 probing 樣本定位干擾層,往往能在同一任務的後續樣本上持續受益。
五、實驗驗證與性能表現
研究團隊在三個主流 VLM 架構(LLaVA,Qwen-VL,InternVL)上進行了全面評估,使用「回答準確率」作為核心指標。在 5 個不同領域的基準數據集和不同 few-shot 設置進行了評估,結果顯示,「TaLo 在絕大多數任務上均能帶來穩定且一致的性能提升」。
在 LLaVA 模型上,無論是 10-shot、15-shot 還是 20-shot 設置,TaLo 都在 MMStar、MMBench、MMMU、ScienceQA 以及 SEEDBench 等多個基準上取得了正向收益,平均性能提升在不同 shot 數下均保持穩定。類似的趨勢也出現在 Qwen-VL 模型中。儘管不同任務對層級幹預的敏感性存在差異,TaLo 依然在多數基準上取得了正向增益,且在 ScienceQA Maps 任務中實現了最高 「16.6%」的性能提升。
這一結果表明,適當繞過特定層能夠有效緩解模型在複雜推理場景下受到的內部干擾。在更大規模的 InternVL 模型上,TaLo 同樣展現出良好的泛化能力。在多個推理與理解任務上,TaLo 在不同 few-shot 條件下持續優於原始模型,且平均性能均實現提升,說明該方法並不依賴於特定模型規模或架構。
值得注意的是,上述所有性能收益「完全來自測試階段的結構性幹預」,並未引入任何參數更新、額外訓練或外部監督信號。這意味著 TaLo 提供了一種輕量、穩定且可復用的測試時自適應機制,能夠在保持模型參數不變的前提下,釋放其在特定任務上的潛在能力。
「LLaVA 和 Qwen-VL 在多個數據集不同任務上的表現:」「InternVL 模型在多個數據集不同任務上的表現:」
「與不同方法的對比實驗:」進一步對比顯示,在低樣本設置下,TaLo 在效率和效果上均優於多種常見的參數高效微調方法。這一結果表明,在某些任務場景中,簡單而精準的結構性調整,可能比複雜的參數學習更加有效。
值得一提的是:TaLo 只需要前向傳播;而對於更大的模型,PEFT 需要許多前向和反向傳播的步驟,導致大規模的資源需求更高。對於 40B 模型,推理只需要大約 50GB 的顯存,而 LoRA 微調的方法即使在 batch-size 為 4 的情況下,顯存佔用也達到了 80GB。「消融實驗 1: 不同幹預方法對 TaLo 的性能影響」
研究團隊分別採取了三種比較常見的層幹預方法:參數直接置零,均勻縮放和均值替代。實驗結果表明置零和均勻縮放產生了相近的效果,但參數置零在各個任務中獲得了更好的平均性能。而均值置換效果較差,甚至採取這種幹預方法有時會找不到對應的 Task-Interfering layer。
「消融實驗 2: 多層搜索的 TaLo 方法」為了補充基於單層幹預的 TaLo 方法,作者對多層 TaLo 幹預進行了研究。對於每個任務,首先使用標準 TaLo 過程確定最優的單層。然後,幹預這一層,並迭代地對 LLM 主幹中的每個其他層應用第二個歸零幹預,在保持所有其他組件不變的情況下測量由此產生的性能變化。
這為每個任務產生一個完整的兩兩幹預矩陣,從中選擇表現最好的兩層組合。由於計算成本隨模型深度的二次增長,將探索限制在雙層組合上,作為高階交互的可處理代理。結果表明,增加第二次幹預的收益十分有限,且極大的增加了消耗的資源,因此作者保持單層幹預的設計方法。
「分析實驗 1: TaLo 層挑選的強健性」
一個很自然的疑問是,TaLo 在 probing 階段選出的“任務干擾層”,是否只是由少量樣本或評測噪聲偶然觸發的結果。為了驗證 TaLo 方法挑選層的強健性,作者進一步通過 bootstrap 採樣對 probing 集進行重複實驗,發現被選中的干擾層高度集中,層選擇結果並未隨樣本擾動而大幅波動。此外,論文還展示了跨基準的遷移驗證:在 MMBench 的邏輯推理任務上選出的干擾層,直接應用到 MMStar 的數學任務上仍能帶來正向增益,而為感知類任務選出的層則會穩定地損害數學推理性能。這種跨 task、跨 benchmark 的一致性表明,TaLo 所識別的並非“對某個 benchmark 偶然最優的層”,而是與 task 條件相關、具有穩定能力的干擾層,從而支持 TaLo 層挑選過程在統計意義和實際應用中的強健性。
「分析實驗 2: 定性案例研究」
除了整體性能與統計穩定性的驗證,研究者進一步通過具體案例對 TaLo 的行為進行了定性分析。可以看到,在未進行層幹預時,模型會給出看似合理但實際錯誤的答案,其錯誤來源並非基礎算術或常識缺失,而是中間推理路徑中引入了不相關或衝突的信息,導致最終判斷偏離正確結論。在應用 TaLo 後,模型在相同輸入下能夠更穩定地聚焦於與任務相關的關鍵信息,並輸出與標準解法一致的結果。這種改進並非來自更“複雜”的推理過程,而是恰恰相反:通過抑制特定任務下的干擾層,模型的中間推理步驟變得更加簡潔、連貫,也更符合人類解題時的邏輯順序。這些案例直觀地表明,TaLo 並不是在“注入新知識”,而是在測試階段有效規避了模型內部不合時宜的信息路由,從而提升了推理結果的可靠性與一致性。
六、啟示與意義
TaLo 的研究結果揭示了一個值得重視的事實:「大規模預訓練模型內部不可避免地存在任務間的表示衝突。某些層在整體預訓練目標下是合理的折中方案,但在具體下游任務中卻可能成為性能瓶頸」。通過在測試階段對這些層進行有針對性的抑制,模型反而能夠更專注於任務真正需要的能力。
從更廣泛的角度來看,這項工作不僅提出了一種實用的測試時自適應方法,也為理解視覺-語言模型的內部功能組織提供了新的視角。它提示我們,在大模型時代,性能提升並不總是依賴於“更多參數”或“更深結構”,有時恰當的簡化,反而能夠釋放模型被掩蓋的潛在能力。