梁文鋒署名,DeepSeek新年開啟宏觀架構新篇章,破解梯度爆炸與顯存牆

2025年的最後一天,DeepSeek 發了篇梁文鋒署名的重磅論文。

圖片

論文提出的 mHC(Manifold-Constrained Hyper-Connections, 流形約束超連接)架構,透過將超連接的殘差空間投影到雙隨機矩陣流形上,成功解決了擴展殘差寬度帶來的訓練不穩定性。

同時配合內核融合與通訊重疊等工程優化,以僅 6.7% 的額外開銷實現了模型性能與規模的同步提升。

mHC 架構對大規模訓練有效,並提供了切實的性能改進和卓越的可擴展性。這將有助於更深入地理解拓撲架構設計,並為基礎模型的發展提出有前景的方向。

超寬殘差流引發的數值風暴與系統瓶頸

深度神經網路在過去十年的飛速發展,很大程度上歸功於殘差連接(Residual Connection)這一簡潔而深刻的設計。

圖片

從 ResNet 到如今主宰大語言模型的 Transformer 架構,恆等映射(Identity Mapping),一直是維持深層網路訊號傳播穩定性的定海神針。

它確保了訊號在正向傳播中不會隨深度增加而過度衰減或放大,同時也保證了反向傳播時梯度的順暢流動。

近期出現的超連接(Hyper-Connections, HC)技術試圖打破傳統殘差連接的局限。

傳統的殘差流寬度通常與層輸入的維度一致,限制了訊息的承載能力。

HC 透過引入一個擴展因子 n,將殘差流的寬度擴展為輸入的 n 倍,構建了一條更寬闊的資訊高速公路。

這種設計在不顯著增加計算量(FLOPs)的前提下,透過增加拓撲結構的複雜性,顯著提升了模型的性能。

這種看似完美的擴展方案在實際的大規模訓練中遭遇了嚴峻挑戰。

隨著網路層數的疊加,原本作為穩定錨點的恆等映射屬性被破壞殆盡。

在標準殘差中,多層傳遞可以看作是多個變換的累加,而在 HC 中,層與層之間的訊號傳遞變成了多個矩陣的連乘。由於原始的 HC 對連乘矩陣沒有任何約束,這些矩陣相乘後的複合映射會迅速偏離恆等變換。

圖片

實驗數據顯示,在 27B 參數規模的模型訓練中,HC 方案在 12k 步左右出現了劇烈的損失發散,梯度範數也隨之劇烈波動。

更直觀的指標是最大增益幅度(Amax Gain Magnitude),即訊號在經過多層傳遞後的放大倍數。

圖片

在 HC 中,這個數值在正向傳播和反向傳播中均飆升至 3000 以上,這意味著訊號在網路深處發生了嚴重的爆炸,徹底破壞了訓練的穩定性。

除了數值上的不穩定性,HC 還帶來了一堵厚重的記憶體牆。

現代深度學習硬體的瓶頸往往不在於計算能力,而在於記憶體存取頻寬(IO)。HC 引入的 n 倍寬殘差流,使得每個 Token 在每一層的顯存讀寫量成倍增加。

圖片

這種巨大的 IO 開銷會導致嚴重的訓練吞吐量下降。

此外,由於矩陣包含可學習參數的線性層,反向傳播時需要儲存大量的中間激活值,這不僅擠佔了寶貴的 GPU 顯存,還迫使開發者不得不使用梯度檢查點(Gradient Checkpointing)技術,進一步增加了計算負擔。

在涉及跨節點通訊的管線平行(Pipeline Parallelism)中,更寬的殘差流也直接導致通訊數據量翻了 n 倍,極大地增加了通訊氣泡(Bubble)的時間。

利用雙隨機矩陣流形重塑恆等映射機制

面對 HC 帶來的穩定性挑戰,DeepSeek 並沒有選擇退回到簡單的恆等映射,而是提出了一種更為精妙的數學解決方案 mHC。

mHC 的核心思想是將殘差流中的可學習映射矩陣投影到一個特定的幾何流形上,使其既能像恆等映射一樣保持訊號傳播的穩定,又能像原始 HC 一樣允許不同殘差流之間的資訊交互。

DeepSeek 選擇的這個特定流形是雙隨機矩陣(Doubly Stochastic Matrices)集合,幾何上也稱為 Birkhoff 多胞形(Birkhoff Polytope)。

一個矩陣被稱為雙隨機矩陣,必須滿足三個條件:所有元素非負,每一行的和為 1,每一列的和也為 1。將矩陣約束為雙隨機矩陣帶來了一系列極其優越的數學性質。

首先是範數保持性質,雙隨機矩陣的譜範數(最大奇異值)被嚴格限制在 1 以內。這意味著這個線性映射是一個非擴張映射,訊號經過它處理後,能量不會被無限放大,從而從根源上消除了梯度爆炸的風險。

其次是複合封閉性,雙隨機矩陣的乘積依然是雙隨機矩陣。這保證了無論網路堆疊多少層,從淺層到深層的複合映射依然保持在雙隨機矩陣的流形內,穩定性得以在全網深度上延續。

從幾何視角來看,雙隨機矩陣可以被視為置換矩陣(Permutation Matrices)的凸組合。特徵的均值被嚴格守恆,這是一種非常良態的訊號傳播機制。它既允許資訊在不同的殘差流之間串門和融合,又像能量守恆定律一樣限制了總訊號強度的失控。

當擴展因子 n=1 時,雙隨機條件退化為標量 1,mHC 也就自然回退到了經典的恆等映射,這說明 mHC 是殘差連接的一種更通用的推廣形式。

為了在實際計算中實現這一約束,mHC 引入了 Sinkhorn-Knopp 演算法。

透過數學上的重構,mHC 成功馴服了狂野的超連接。

圖片

實驗結果表明,在採用 mHC 後,原本高達 3000 的訊號增益幅度被壓制到了 1.6 左右,這僅僅是因為 Sinkhorn-Knopp 有限次迭代帶來的微小誤差,相比之下已經降低了三個數量級。

這種數量級的差異直接轉化為訓練曲線的平滑,模型不再出現損失值的突然跳變,梯度更新也變得平穩有序。

軟硬協同優化突破顯存帶寬與通訊限制

數學上的優雅往往需要工程上的強力支撐才能轉化為實際的性能。

mHC 引入的 n 倍寬殘差流和 Sinkhorn-Knopp 迭代計算,如果在傳統框架下直接實現,將帶來無法接受的顯存和時間開銷。

為此,DeepSeek 團隊進行了一系列深度的基礎設施優化,從內核融合到通訊調度,將不可行變成了高效。

針對記憶體牆問題,核心策略是極致的內核融合(Kernel Fusion)。

在標準的 PyTorch 實作中,RMSNorm、矩陣乘法、激活函數等操作是分步執行的,每一步都需要將數據從顯存搬運到晶片上再搬運回去。

對於 mHC 這種 IO 密集型操作,這種模式是致命的。DeepSeek 利用 TileLang 程式設計模型,開發了客製化的混合精度內核。

顯存佔用的優化則依賴於精細的重計算(Recomputing)策略。由於 n 流殘差引入了巨大的中間激活值,如果全部儲存用於反向傳播,顯存會瞬間爆滿。

mHC 採取了一種用計算換顯存的策略,在顯存佔用和計算時間之間取得了最佳平衡。這一策略使得 mHC 在訓練大模型時,顯存消耗得到了有效控制,無需犧牲批量大小(Batch Size)。

在大規模分散式訓練場景下,管線平行(Pipeline Parallelism)是必不可少的。

然而,mHC 導致的 n 倍跨節點通訊量是一個巨大的瓶頸。

為了解決這個問題,DeepSeek 擴展了 DualPipe 調度策略。

圖片

DualPipe 原本用於重疊計算和通訊,但在 mHC 場景下,傳統的重疊策略失效了,因為通訊時間過長。

新的調度方案將計算流分為普通優先級和高優先級。為了不阻塞通訊流,負責處理 MLP 層(前饋網路)的內核被賦予高優先級,並且避免在注意力層使用運行時間過長的持久化內核(Persistent Kernels)。

這種設計允許計算任務被靈活佔用,確保通訊與計算在時間軸上能夠完美錯開。即使在管線階段的邊界處,透過解耦重計算與通訊的依賴,也實現了高效的掩蓋。

這一系列軟硬兼施的優化效果顯著。

在 27B 參數模型的實際訓練中,相比于基線模型,引入擴展因子 n=4 的 mHC 僅增加了 6.7% 的訓練時間開銷。考慮到 mHC 帶來的性能提升,這微小的額外成本幾乎可以忽略不計。

這證明了透過深度的系統級優化,複雜的數學結構完全可以在現有硬體上高效運行。

從 3B 到 27B 的實戰驗證與擴展性分析

DeepSeek 在不同規模的模型上對 mHC 進行了全面驗證,模型架構基於混合專家模型(MoE),涵蓋了 3B、9B 和 27B 參數量級,擴展因子 n 統一設定為 4。

實驗不僅關注最終的性能指標,還深入考察了訓練過程的穩定性以及隨計算量(Compute)和數據量(Token)變化的擴展規律(Scaling Laws)。

圖片

在最核心的 27B 模型對比實驗中,mHC 展現了壓倒性的穩定性優勢。相比于基線模型,HC 在訓練中途頻繁出現損失值的震盪和梯度的劇烈波動,而 mHC 的訓練曲線如履平地,損失值穩步下降,最終的驗證集損失比基線低了 0.021。

這在預訓練領域是一個相當可觀的差距,通常意味著模型在下游任務上的表現會有顯著提升。

梯度範數的監測曲線也證實了這一點,mHC 的梯度行為與最穩定的標準殘差網路幾乎一致,完全消除了 HC 那種心電圖般的劇烈跳動。

下游任務的評測結果進一步印證了 mHC 的有效性。

圖片

在包含 BBH、DROP、GSM8K、MATH 等 8 個主流基準測試中,mHC 全面超越了基線模型,並在絕大多數任務上擊敗了原始的 HC。

特別是在需要複雜推理能力的 BBH 和 DROP 任務上,mHC 分別取得了 2.1% 和 2.3% 的顯著提升。

這表明,mHC 不僅修復了訓練的不穩定性,其透過流形約束引入的特徵混合機制,實際上增強了模型處理複雜資訊流和進行深層推理的能力。

擴展性實驗(Scaling Experiments)為 mHC 的應用前景提供了更廣闊的支撐。

在計算擴展曲線(Compute Scaling Curve)中,研究人員繪製了不同計算預算下(對應 3B、9B、27B 模型)mHC 相對於基線的性能提升幅度。

圖片

結果顯示,隨著模型規模和計算量的增加,mHC 帶來的性能紅利並沒有衰減,始終保持在穩定的正向區間。

這意味著 mHC 是一項具有良好擴展性的技術,不會因為模型變大而失效。

同時,在 3B 模型的 Token 擴展曲線(Token Scaling Curve)中,隨著訓練數據量的增加,mHC 始終保持著對基線的性能壓制。

DeepSeek 的這項研究開啟了一個新的宏觀架構設計視角。

透過引入幾何流形約束,神經網路可以在保持數學性質良好的前提下,大幅增加拓撲結構的複雜度。

mHC 證明了,只要有正確的數學約束和極致的工程優化,我們完全可以在不顯著增加計算和時間成本的情況下,突破現有架構的性能天花板。

這為未來兆參數模型的架構演進,提供了一條既穩健又高效的新路徑。

參考資料:

https://arxiv.org/abs/2512.24880


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.