各位捲友大家好,我是 Rumor。
在 Transformer 剛嶄露頭角的頭幾年,學界就曾提出過一個大膽構想:若是不增加參數量,僅讓激活值在同一組層中循環多次,不就能有效增加計算量嗎?
這個概念被稱為 Loop Transformer(循環架構)或 Recurrent Depth Model (RDM)。理論上這非常優雅:推論時能彈性調整循環次數,記憶體佔用固定,天生就支援測試時縮放(test-time scaling)。
然而現實骨感,這類模型訓練起來極不穩定——殘差爆炸(residual explosion)、損失值尖峰(loss spike)頻傳,且對超參數的選擇極度敏感。
加州大學聖地牙哥分校(UCSD)與 Together AI 合作的這篇Parcae: Scaling Laws For Stable Looped Language Models[1],這次從控制理論的角度徹底釐清了不穩定性的根源,並提出了穩定版本 Parcae。
不穩定性從何而來?
Parcae 的研究團隊採用了一個極為巧妙的視角:將循環 Transformer 的每一步更新,視為控制系統中的動力系統。
每一次循環,模型的隱藏層狀態 都會經過一次 Transformer 層計算轉化為新的 。這個過程可拆解為三部分:
- 上一輪的隱藏層狀態 ,會透過一個矩陣變換傳遞至下一輪;
- 初始輸入的嵌入向量(embedding),會持續注入每一輪計算,確保模型不偏離軌道;
- 剩餘部分則是 Transformer 中注意力機制與 MLP 等非線性運算。
將此過程寫成公式如下:
其中:
- 是第 次循環的隱藏層狀態
- 是前置模組 輸出的輸入嵌入
- 是狀態轉移矩陣,控制上一步隱藏層狀態的傳遞
- 是輸入注入矩陣,控制輸入 對當前狀態的影響
- 是 Transformer 模組(注意力 + MLP)的非線性部分
這裡最關鍵的,莫過於控制上一輪狀態傳遞的矩陣 。打個最生動的比方:這個循環過程就像在滾雪球。
- 隱藏層狀態 ,就是你手中的雪球;
- 每一次循環,就是雪球在雪地裡滾了一圈;
- 矩陣 ,則是雪球每滾一圈的放大係數。
如果 的放大係數大於 1,會發生什麼事?雪球每滾一圈就變大一點,第一圈從拳頭大變成碗大,第二圈變成臉盆大,滾個十幾圈直接變成小山般巨大,最後直接「炸開」——數值溢位,模型發散。
那麼,如何讓雪球滾得穩而不爆炸?
經典控制理論早已給出答案:對於此類循環線性系統,若要系統穩定,必須保證矩陣 的譜半徑(spectral radius)。
所謂的譜半徑,可理解為該矩陣最大特徵值的絕對值。只要這個值小於 1,雪球每滾一圈,最多維持原狀甚至縮小,絕不會越滾越大,自然就能避免爆炸。
回頭檢視先前的循環架構,問題立刻浮上檯面:
- 採用加法進行輸入注入的模型, 直接是單位矩陣 ,譜半徑等於 1,屬於「邊際穩定」——稍有風吹草動就容易爆炸;
- 採用拼接投影(concatenation-projection)進行輸入注入的模型, 完全無約束,訓練時模型極易學出譜半徑大於 1 的矩陣,導致直接發散。
作者也透過實驗證實了這一結論:所有訓練發散的模型,過程中都學到了譜半徑 的 ;而能穩定收斂的模型,其譜半徑始終小於 1。
困擾循環架構已久的穩定性謎題,就此被徹底解開。
Parcae 的對症下藥
既然找到了病根,解決起來便順理成章:既然不穩定性源於 的譜半徑失控,那就將其死死約束住,確保其譜半徑永遠小於 1。
這就是論文提出的 Parcae 架構核心設計,全程沒有花俏的技巧,每一步都直擊痛點,且僅增加極少量額外參數,真正做到了「不增加參數的擴縮放(Scaling)」。
1. 為狀態轉移矩陣戴上枷鎖,從根源保證穩定
作者為矩陣 設計了特殊的參數化形式:先將連續域矩陣設為負對角矩陣,再利用控制理論標準的零階保持(ZOH)方法,轉換為離散循環中的 :
此設計的妙處在於:負對角矩陣的所有特徵值皆為負數,經 ZOH 離散化後,得到的 譜半徑必然小於 1,從數學上保證了系統穩定,再也不會出現雪球越滾越大的狀況。
2. 為輸入加上歸一化,消除訓練後期的 Loss Spike
光約束住 還不夠,作者發現大模型訓練到後期仍偶有損失值尖峰。排查後發現問題出在輸入注入的 上——若輸入 數值過大,也會導致隱藏層狀態突然爆炸。
解決方法很簡單:在輸入 進入循環前加一層歸一化,牢牢控制其數值範圍。僅此微小改動,便直接抹平了訓練後期的損失值尖峰。
3. 優化訓練採樣方式,讓模型學得更穩
先前的循環模型訓練時皆按批次(batch)採樣循環次數——同一批次內所有句子使用相同循環次數。但這會導致模型對循環次數的期望估計不準,訓練時損失值波動劇烈。
Parcae 改為逐序列深度採樣(Per-Sequence Depth Sampling):同一批次中,每個句子獨立採樣自己的循環次數。如此一來,模型能更精確學習不同循環次數的分佈,訓練更平穩,損失值波動消失,且對不同循環次數的泛化能力更強。
這幾招下來效果有多誇張?
作者在 2e-4 到 1e-3 的五組學習率中進行了實驗:
- 原始 RDM 模型,僅在最低的 2e-4 學習率下能收斂;
- 加入殘差歸一化的 RDM,也僅能在 4e-4 及以下學習率收斂;
- 而 Parcae,在全部五組學習率下皆能穩穩收斂。
循環模型超參數敏感的頑疾,就此迎刃而解。
實戰效果
解決穩定性問題後,循環架構的威力終於徹底釋放。作者從 1.4 億到 13 億參數進行了全規模實驗。先看與同參數量標準 Transformer 的對比,結果顯示:7.7 億參數的 Parcae,Core 分數 25.07,與 13 億參數的標準 Transformer(25.45)幾乎持平——參數量直接減半,記憶體佔用不變,效果僅差 0.38 分。
備註:文中未對比 Parcae 與 Transformer 的推論效率。例如 7.7 億參數的 Parcae(8 次循環)與 13 億參數的 Transformer 效果相當,但前者需循環 8 次,單 token 推論的延遲、吞吐量及記憶體頻寬佔用上的差距,仍有待驗證。
與先前最佳的循環模型 RDM 相比,Parcae 在下游客任務的平均分最高提升了 1.8 分。
同時,作者也針對上述三個優化點進行了消融實驗:Constrained A 使 T=4/8 不再發散,Per-Seq. Sampling 降低了 loss spike 方差,Prelude Norm 提升全域品質並解決後期 spike:
循環模型的縮放定律(Scaling Laws)
若說解決穩定性問題是為循環架構打通了任督二脈,那這篇論文最具長期價值的貢獻,莫過於首次系統性地推導出了循環架構的縮放定律(Scaling Laws)。
循環次數,是繼參數量、數據量之後,第三個獨立且可預測的縮放維度。
訓練時算力怎麼花最划算?
作者進行了大量 isoFLOP(固定總算力)實驗,最終發現:在固定算力預算下,最优訓練策略並非將所有算力堆給數據,而是同步增加循環次數與訓練數據量。
兩者隨總算力的增長,皆遵循嚴格的冪律:
換句話說:每當訓練總算力翻倍,最优循環次數需增長約 32%,最优訓練數據量需增長約 72%,如此搭配出的模型效果最佳。
實驗證實:同樣的算力預算,「增加循環次數 + 減少數據量」的方案,比「低循環次數 + 全堆數據」的方案損失值更低,效果更好。
這直接為大模型訓練開闢了一條新路:若你算力有限,無法堆疊更大模型或更多數據,完全可以透過增加循環次數,以更低成本獲取更佳效果。
推論時循環多少次最划算?
除了訓練,作者還發現推論時增加循環次數,其效果提升遵循飽和指數衰減規律:
這個公式意味著:剛開始多循環幾次,效果提升顯著;但循環次數增多後,邊際效益會快速下降,最終收斂至一個最低損失值下界,再也無法提升。
而這個下界由訓練時的循環次數決定——訓練時循環次數越多,下界越低,推論時能達到的效果上限就越高。想靠推論時無限循環來突破訓練時的成效上限,是不可能的。
最精妙的是,作者將訓練與推論的縮放定律整合成統一公式,能精準預測不同算力、不同循環次數下的模型效果,預測誤差僅 0.85%-1.31%。往後訓練循環模型,無需再盲目嘗試超參數,直接用此公式即可算出最优方案。
備註:論文所有實驗最大僅做到 13 億參數、1040 億 tokens 規模,遠小於工業界主流大模型尺寸,在更大模型上的穩定性與參數效率優勢能否保持,仍有待驗證。
總結
整體而言,這篇論文絕對是循環架構領域的里程碑式工作。它不僅從理論根源解決了循環 Transformer 長期以來的訓練不穩定問題,更給出了完整的縮放定律,為「不堆參數提升模型效果」這個方向打開了全新的想像空間。
不過,論文的核心穩定性結論是基於線性近似推導,存在理論前提邊界。對於完整、帶注意力與激活函數的非線性系統,譜半徑小於 1 只是穩定的必要條件而非充分條件。同时在效果上,也未與 Transformer 模型進行後訓練(Post-train)後的對比。
雖然目前它仍有許多坑待填,距離大規模工業落地尚有距離,但當參數、數據、循環次數這三個縮放軸同時放開後,最优解究竟在哪裡——這才是真正有趣的問題,而 Parcae 僅僅是剛打開了這扇門。
參考資料
[1] Parcae: Scaling Laws For Stable Looped Language Models: https://arxiv.org/abs/2604.12946