這篇論文從資料中心的角度切入:大型語言模型表現更強,不僅僅是因為它們能表示更多資訊,也更因為它們有能力保留那些長尾的任務。
為何大型模型表現總是比小型模型好?
參數更多、資料更多、算力更強,模型的能力就跟著提升,這幾乎已成為過去幾年來大型語言模型發展的黃金定律。
然而,更難回答的問題是:大型模型究竟比小型模型多學到了什麼?是小型模型根本無法表示這些任務,還是它其實有能力表示,只是在預訓練過程中難以穩定地學到?如果給小型模型更多資料、更長的訓練時間,它是否總有機會能迎頭趕上?
這篇由史丹佛大學、哈佛大學、麻省理工學院、Anthropic 等機構共同參與的新論文,給出了一個更具體的解釋:大型模型的優勢,不僅是更強的表達能力,也不僅是更高的樣本效率。
很多時候,小型模型並非完全學不會,而是在混雜資料的訓練中,難以留住那些低頻、複雜的任務訊號。
論文標題:
Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention
論文連結:
https://arxiv.org/abs/2605.29548
大型模型多出來的容量,降低了高頻任務對低頻任務的排擠效應,讓稀有任務的微弱訊號不至於在後續訓練中馬上被覆蓋掉。
資料擴展可以彌補一部分的差距,但另一部分則需要靠模型本身的擴展
大型模型多出來的能力
論文首先將「大型模型更強」的現象拆解成兩種情況。
第一類差距,可以靠資料擴展來彌補。小型模型在有限算力下表現不如大型模型,但如果持續增加資料或訓練資源,理論上仍然有機會追上。這裡的大型模型更像是學得更快、更省樣本。
第二類差距,則必須依賴模型本身的擴展。即使把資料無限制地擴張到極限,小型模型仍然達不到大型模型在有限算力下就能獲得的 loss 水準。這意味著,訓練資料中有一部分內容,是小型模型在同樣訓練條件下難以學到的。
在同一份混雜的訓練資料裡,哪些任務會先被學到,哪些又會被排擠出去?
真實的預訓練語料庫中,任務並非均勻分布。語言建模的目標背後,混雜著大量的子任務:有的高頻,有的低頻;有的簡單,有的需要更多結構才能泛化。當模型容量有限時,這些任務就會競爭同一批表徵資源。
模型會優先學什麼?
作者設計了一個合成的多任務迴歸實驗。每個任務有兩個關鍵屬性:出現的頻率,以及複雜度。
任務在資料中出現得越頻繁,對整體 loss 的影響力就越大。而複雜度則透過任務的特徵譜來刻畫。譜衰減得越慢,代表任務需要越多特徵方向才能學好,因此更難被寬度有限的模型充分保留。
最核心的排序規則如下:
其中一個項代表任務頻率,另一個項代表任務中某個特徵方向的重要性。兩者相乘,就是這個特徵的效用。
當模型寬度為某個值時,它會優先保留效用最大的前幾個特徵。模型並不會平均分配容量,而是優先保留最能降低整體 loss 的特徵。
因此,高頻任務和低複雜度的任務會先被學到。低頻、複雜的任務不一定無法被表示,但在資源戰中排名會比較後面。小型模型的容量一旦被高效用的特徵塞滿,長尾任務就很難進入模型的表徵空間。
模型寬度增加後,低頻任務開始被逐步學到。
在上圖中,作者訓練不同寬度的模型,並混雜 32 個頻率不同的迴歸任務。結果顯示,隨著模型寬度增加,模型開始保留更低效用的特徵,並且能更好地學習低頻任務。實驗趨勢與定理中的效用排序基本吻合。
大型模型多出來的參數,讓原本排在後面的任務,也有機會進入表徵空間。
梯度干擾與訊號保留
低頻任務很少出現,模型要學會它,必須能在幾次稀有的樣本出現之間,把已學到的訊號保留下來。
稀有任務的樣本出現時,小型模型的參數確實會朝著這個任務更新。但在下一次稀有任務出現之前,大量高頻任務的樣本會繼續更新同一批參數,剛寫入的稀有任務訊號很快就被覆蓋了。
論文將這種動態概括為「更新—遺忘循環」:稀有任務出現一次,小型模型短暫寫入相關訊號;高頻任務繼續訓練,訊號逐步衰減;下一次稀有任務再出現時,模型幾乎又回到了原點。
當模型寬度夠大時,它可以先把常見任務解釋得更充分。常見任務的殘差訊號下降後,對參數的梯度拉力也會隨之減弱。稀有任務帶來的更新,也就不那麼容易被沖掉,模型因此得以將多次的低頻觀察累積起來。
定理給出的直觀結論是:常見任務的整體梯度,受其殘差訊號控制。常見任務還沒學好時,會持續佔用更新方向;一旦解釋得越充分,干擾就越弱,剩餘的容量就越可能留給稀有任務。
常見任務的殘差下降後,稀有任務的訊號才得以穩定地進入表徵。
上圖中,小型模型仍有大量常見任務的殘差訊號需要解釋,稀有任務的訊號近似隨機;當模型寬度跨過論文預測的門檻,常見任務殘差下降,稀有任務才開始被穩定編碼。
小型模型短暫編碼稀有任務後,很快就衰減了;大型模型則能保留並累積訊號。
上圖中,作者保持稀有任務的總體頻率不變,只改變相鄰兩次注入之間的間隔。小型模型在每次注入後,會短暫地編碼稀有任務,但隨後迅速衰減;大型模型則能在注入間隔中保留更多訊號,並在訓練中逐步累積。
這意味著,大型模型的優勢,不只來自於能表示更多內容,更來自於它對低頻任務訊號的保留能力更強。
OLMo 預訓練驗證
論文也將這套機制放到 OLMo 的預訓練流程中驗證。實驗訓練了 4M、20M、300M、1B、4B 五個規格的 OLMo 模型,最多訓練到 210B tokens。
預訓練的語料庫採用 Dolma v1.7。為了控制任務頻率,作者向語料庫中注入了兩個在常規預訓練資料中不太可能自然出現的任務:比較任務 TCMP 和模加任務 TADD。
這兩個任務並非簡單的記憶題。每個任務有 10K 個實例,訓練和測試各半。比較任務要求模型學到 token 的全局順序結構,模加任務則需要捕捉傅立葉模式。測試準確率衡量的,是模型是否真正學到了可泛化的結構,而不僅僅是記住了訓練樣本。
在 OLMo 預訓練中,大型模型更能學會低頻的注入任務。
行為結果與合成實驗一致:模型越大,越能學到更低頻的注入任務;小型模型在低頻任務上的訓練 loss 較高,測試準確率也較低。
作者不只觀察 loss,還進一步追蹤到表徵和梯度的層面。
在表徵層面,隨著模型規模和任務頻率提升,TCMP 的全局順序特徵、TADD 的傅立葉特徵,會更明顯地出現在模型內部的表徵中。
模型更龐大、任務頻率更高時,任務相關的特徵會更清晰地進入表徵空間。
在梯度層面,作者聚焦 TCMP 訓練過程中的一組任務相關神經元,分析批次梯度與任務參考方向的餘弦相似度。
隨後,他們將批次梯度拆分為任務 token 梯度,以及非任務 token 梯度。
大型模型的非任務梯度,對任務方向的干擾更小。
結果顯示,大型模型在任務注入時,攜帶了更清晰的任務訊號,非任務 token 的梯度幾乎不干擾任務方向;小型模型則更容易出現隨機碰撞和干擾。
這三層證據都指向同一個結論:模型越大,任務之間的互相覆蓋就越少。
Scaling 之外的啟示
這篇論文並沒有把 Scaling 的優勢歸結為任何單一原因。大型模型當然有更強的表達能力,也往往有更好的樣本效率。
論文的討論部分也格外強調,這裡的解釋並非 Scaling 的完整理論,而是與表達能力和樣本效率兩個觀點互補的。
這篇論文真正補充的,是另一層次的問題。在混雜資料的訓練中,能力不單由模型是否能表示來決定,還取決於梯度優化能否從當前的資料分布中穩定地學到。
如果目標能力本身就是低頻、複雜的任務,那麼擴大模型規模並非唯一選擇。調整資料的配比、提高目標任務的頻率,可能比單純擴大模型更有效率。至於如何系統性地降低任務間的梯度干擾,則仍需後續的研究。
論文還提示,記憶並不總是訓練中的副作用。在稀有任務的學習上,它很可能是模型跨批次累積訊號、最終學到抽象結構的先決條件。
大型模型之所以比小型模型強,不僅僅是因為參數更多、容量更大。更具體地說,是它讓常見任務和稀有任務之間,少了一些直接的正面衝突。
那些在小型模型中剛寫入、卻又很快被沖掉的稀有任務訊號,很可能正是大型模型真正多學到的部分。