各位捲友大家好，我是 Rumor。

在 Transformer 剛嶄露頭角的頭幾年，學界就曾提出過一個大膽構想：若是不增加參數量，僅讓激活值在同一組層中循環多次，不就能有效增加計算量嗎？

這個概念被稱為 Loop Transformer（循環架構）或 Recurrent Depth Model (RDM)。理論上這非常優雅：推論時能彈性調整循環次數，記憶體佔用固定，天生就支援測試時縮放（test-time scaling）。

然而現實骨感，這類模型訓練起來極不穩定——殘差爆炸（residual explosion）、損失值尖峰（loss spike）頻傳，且對超參數的選擇極度敏感。

加州大學聖地牙哥分校（UCSD）與 Together AI 合作的這篇Parcae: Scaling Laws For Stable Looped Language Models[1]，這次從控制理論的角度徹底釐清了不穩定性的根源，並提出了穩定版本 Parcae。

不穩定性從何而來？

Parcae 的研究團隊採用了一個極為巧妙的視角：將循環 Transformer 的每一步更新，視為控制系統中的動力系統。

每一次循環，模型的隱藏層狀態 $h$ 都會經過一次 Transformer 層計算轉化為新的 $h$ 。這個過程可拆解為三部分：

上一輪的隱藏層狀態 $h_{t}$ ，會透過一個矩陣變換傳遞至下一輪；
初始輸入的嵌入向量（embedding） $e$ ，會持續注入每一輪計算，確保模型不偏離軌道；
剩餘部分則是 Transformer 中注意力機制與 MLP 等非線性運算。

將此過程寫成公式如下：

其中：

$h_{t}$ 是第 $t$ 次循環的隱藏層狀態
$P (e)$ 是前置模組 $P$ 輸出的輸入嵌入
$A$ 是狀態轉移矩陣，控制上一步隱藏層狀態的傳遞
$B$ 是輸入注入矩陣，控制輸入 $e$ 對當前狀態的影響
$f (\cdot)$ 是 Transformer 模組（注意力 + MLP）的非線性部分

這裡最關鍵的，莫過於控制上一輪狀態傳遞的矩陣 $A$ 。打個最生動的比方：這個循環過程就像在滾雪球。

隱藏層狀態 $h$ ，就是你手中的雪球；
每一次循環，就是雪球在雪地裡滾了一圈；
矩陣 $A$ ，則是雪球每滾一圈的放大係數。

如果 $A$ 的放大係數大於 1，會發生什麼事？雪球每滾一圈就變大一點，第一圈從拳頭大變成碗大，第二圈變成臉盆大，滾個十幾圈直接變成小山般巨大，最後直接「炸開」——數值溢位，模型發散。

那麼，如何讓雪球滾得穩而不爆炸？

經典控制理論早已給出答案：對於此類循環線性系統，若要系統穩定，必須保證矩陣 $A$ 的譜半徑（spectral radius） $ρ (A) < 1$ 。

所謂的譜半徑，可理解為該矩陣最大特徵值的絕對值。只要這個值小於 1，雪球每滾一圈，最多維持原狀甚至縮小，絕不會越滾越大，自然就能避免爆炸。

回頭檢視先前的循環架構，問題立刻浮上檯面：

採用加法進行輸入注入的模型， $A$ 直接是單位矩陣 $I$ ，譜半徑等於 1，屬於「邊際穩定」——稍有風吹草動就容易爆炸；
採用拼接投影（concatenation-projection）進行輸入注入的模型， $A$ 完全無約束，訓練時模型極易學出譜半徑大於 1 的矩陣，導致直接發散。

作者也透過實驗證實了這一結論：所有訓練發散的模型，過程中都學到了譜半徑 $\geq 1$ 的 $A$ ；而能穩定收斂的模型，其譜半徑始終小於 1。

困擾循環架構已久的穩定性謎題，就此被徹底解開。

Parcae 的對症下藥

既然找到了病根，解決起來便順理成章：既然不穩定性源於 $A$ 的譜半徑失控，那就將其死死約束住，確保其譜半徑永遠小於 1。

這就是論文提出的 Parcae 架構核心設計，全程沒有花俏的技巧，每一步都直擊痛點，且僅增加極少量額外參數，真正做到了「不增加參數的擴縮放（Scaling）」。

1. 為狀態轉移矩陣戴上枷鎖，從根源保證穩定

作者為矩陣 $A$ 設計了特殊的參數化形式：先將連續域矩陣設為負對角矩陣，再利用控制理論標準的零階保持（ZOH）方法，轉換為離散循環中的 $A$ ：

此設計的妙處在於：負對角矩陣的所有特徵值皆為負數，經 ZOH 離散化後，得到的 $A$ 譜半徑必然小於 1，從數學上保證了系統穩定，再也不會出現雪球越滾越大的狀況。

2. 為輸入加上歸一化，消除訓練後期的 Loss Spike

光約束住 $A$ 還不夠，作者發現大模型訓練到後期仍偶有損失值尖峰。排查後發現問題出在輸入注入的 $e$ 上——若輸入 $e$ 數值過大，也會導致隱藏層狀態突然爆炸。

解決方法很簡單：在輸入 $e$ 進入循環前加一層歸一化，牢牢控制其數值範圍。僅此微小改動，便直接抹平了訓練後期的損失值尖峰。

3. 優化訓練採樣方式，讓模型學得更穩

先前的循環模型訓練時皆按批次（batch）採樣循環次數——同一批次內所有句子使用相同循環次數。但這會導致模型對循環次數的期望估計不準，訓練時損失值波動劇烈。

Parcae 改為逐序列深度採樣（Per-Sequence Depth Sampling）：同一批次中，每個句子獨立採樣自己的循環次數。如此一來，模型能更精確學習不同循環次數的分佈，訓練更平穩，損失值波動消失，且對不同循環次數的泛化能力更強。

這幾招下來效果有多誇張？

作者在 2e-4 到 1e-3 的五組學習率中進行了實驗：

原始 RDM 模型，僅在最低的 2e-4 學習率下能收斂；
加入殘差歸一化的 RDM，也僅能在 4e-4 及以下學習率收斂；
而 Parcae，在全部五組學習率下皆能穩穩收斂。

循環模型超參數敏感的頑疾，就此迎刃而解。

實戰效果

解決穩定性問題後，循環架構的威力終於徹底釋放。作者從 1.4 億到 13 億參數進行了全規模實驗。先看與同參數量標準 Transformer 的對比，結果顯示：7.7 億參數的 Parcae，Core 分數 25.07，與 13 億參數的標準 Transformer（25.45）幾乎持平——參數量直接減半，記憶體佔用不變，效果僅差 0.38 分。

備註：文中未對比 Parcae 與 Transformer 的推論效率。例如 7.7 億參數的 Parcae（8 次循環）與 13 億參數的 Transformer 效果相當，但前者需循環 8 次，單 token 推論的延遲、吞吐量及記憶體頻寬佔用上的差距，仍有待驗證。

與先前最佳的循環模型 RDM 相比，Parcae 在下游客任務的平均分最高提升了 1.8 分。

同時，作者也針對上述三個優化點進行了消融實驗：Constrained A 使 T=4/8 不再發散，Per-Seq. Sampling 降低了 loss spike 方差，Prelude Norm 提升全域品質並解決後期 spike：

循環模型的縮放定律（Scaling Laws）

若說解決穩定性問題是為循環架構打通了任督二脈，那這篇論文最具長期價值的貢獻，莫過於首次系統性地推導出了循環架構的縮放定律（Scaling Laws）。

循環次數，是繼參數量、數據量之後，第三個獨立且可預測的縮放維度。

訓練時算力怎麼花最划算？

作者進行了大量 isoFLOP（固定總算力）實驗，最終發現：在固定算力預算下，最优訓練策略並非將所有算力堆給數據，而是同步增加循環次數與訓練數據量。

兩者隨總算力的增長，皆遵循嚴格的冪律：

換句話說：每當訓練總算力翻倍，最优循環次數需增長約 32%，最优訓練數據量需增長約 72%，如此搭配出的模型效果最佳。

實驗證實：同樣的算力預算，「增加循環次數 + 減少數據量」的方案，比「低循環次數 + 全堆數據」的方案損失值更低，效果更好。

這直接為大模型訓練開闢了一條新路：若你算力有限，無法堆疊更大模型或更多數據，完全可以透過增加循環次數，以更低成本獲取更佳效果。

推論時循環多少次最划算？

除了訓練，作者還發現推論時增加循環次數，其效果提升遵循飽和指數衰減規律：

這個公式意味著：剛開始多循環幾次，效果提升顯著；但循環次數增多後，邊際效益會快速下降，最終收斂至一個最低損失值下界，再也無法提升。

而這個下界由訓練時的循環次數決定——訓練時循環次數越多，下界越低，推論時能達到的效果上限就越高。想靠推論時無限循環來突破訓練時的成效上限，是不可能的。

最精妙的是，作者將訓練與推論的縮放定律整合成統一公式，能精準預測不同算力、不同循環次數下的模型效果，預測誤差僅 0.85%-1.31%。往後訓練循環模型，無需再盲目嘗試超參數，直接用此公式即可算出最优方案。

備註：論文所有實驗最大僅做到 13 億參數、1040 億 tokens 規模，遠小於工業界主流大模型尺寸，在更大模型上的穩定性與參數效率優勢能否保持，仍有待驗證。

總結

整體而言，這篇論文絕對是循環架構領域的里程碑式工作。它不僅從理論根源解決了循環 Transformer 長期以來的訓練不穩定問題，更給出了完整的縮放定律，為「不堆參數提升模型效果」這個方向打開了全新的想像空間。

不過，論文的核心穩定性結論是基於線性近似推導，存在理論前提邊界。對於完整、帶注意力與激活函數的非線性系統，譜半徑小於 1 只是穩定的必要條件而非充分條件。同时在效果上，也未與 Transformer 模型進行後訓練（Post-train）後的對比。

雖然目前它仍有許多坑待填，距離大規模工業落地尚有距離，但當參數、數據、循環次數這三個縮放軸同時放開後，最优解究竟在哪裡——這才是真正有趣的問題，而 Parcae 僅僅是剛打開了這扇門。

參考資料

[1] Parcae: Scaling Laws For Stable Looped Language Models: https://arxiv.org/abs/2604.12946

作者 Rumor 的個人形象照

循環 Transformer 的縮放定律：Parcae 如何破解穩定性難題