梁文鋒の署名付き、DeepSeek新年の宏観アーキテクチャ新章、勾配爆発とメモリ壁を解決

2025年の大晦日、DeepSeekは梁文鋒署名の重量級論文を発表しました。

画像

論文が提案するmHC(Manifold-Constrained Hyper-Connections、多様体拘束ハイパー接続)アーキテクチャは、ハイパー接続の残差空間を二重確率行列多様体に射影することで、残差幅の拡張に伴う訓練の不安定性を成功裡に解決します。

同時に、カーネル融合や通信オーバーラップなどの工学的最適化と組み合わせることで、わずか6.7%の追加オーバーヘッドでモデル性能と規模の同時向上を実現しました。

mHCアーキテクチャは大規模訓練に有効であり、確かな性能改善と優れたスケーラビリティを提供します。これはトポロジー設計の理解を深め、基盤モデルの発展に有望な方向性を提案することに役立ちます。

超広幅残差流が引き起こす数値的暴走とシステムボトルネック

深層ニューラルネットワークの過去10年間の急速な発展は、很大程度上、簡潔かつ深い設計である残差接続(Residual Connection)に帰因しています。

画像

ResNetから、現在大規模言語モデルを支配しているTransformerアーキテクチャまで、恒等写像(Identity Mapping)は、深層ネットワークの信号伝播の安定性を維持する定海の神針であり続けてきました。

これは、正方向伝播において信号が深度の増加に伴い過度に減衰または増幅されないことを保証し、同時に逆方向伝播時の勾配のスムーズな流れも保証します。

最近登場したハイパー接続(Hyper-Connections, HC)技術は、従来の残差接続の限界を打破しようとしています。

従来の残差流の幅は通常、層入力の次元と一致しており、情報の保持能力を制限しています。

HCは拡張係数nを導入し、残差流の幅を入力のn倍に拡張し、より広い情報の高速道路を構築します。

この設計は、計算量(FLOPs)を著しく増加させることなく、トポロジー構造の複雑さを増やすことで、モデルの性能を著しく向上させます。

しかし、この一見完璧な拡張schemeは、実際の大規模訓練で深刻な課題に直面しました。

ネットワーク層が重なるにつれ、元々安定のアンカーである恒等写像属性は完全に破壊されます。

標準残差では、多層伝送は複数の変換の積算と見なされますが、HCでは、層間の信号伝送は複数の行列の連続乗算に変わります。元のHCは連続乗算行列に一切の拘束を置かないので、これらの行列を乗算した後の複合写像は急速に恒等変換から逸脱します。

画像

実験データによると、27Bパラメータ規模のモデル訓練において、HCスキームは12kステップ前後で激しい損失発散を起こし、勾配ノルムも激しく変動しました。

より直観的な指標は、最大增益幅度(Amax Gain Magnitude)、つまり信号が多層を経過した後の増幅倍数です。

画像

HCでは、この数値は正方向伝播と逆方向伝播の両方で3000以上に急増し、これは信号がネットワーク深部で深刻な爆発を起こし、訓練の安定性を完全に破壊したことを意味します。

数値的不安定性に加え、HCは厚いメモリ壁ももたらします。

現代の深層学習ハードウェアのボトルネックは、しばしば計算能力ではなく、メモリアクセス帯域幅(IO)です。HCが導入するn倍幅残差流により、各トークンの各層におけるVRAMの読み書き量が倍増します。

画像

この巨大なIOオーバーヘッドは、深刻な訓練スループットの低下を招きます。

さらに、行列に学習可能なパラメータを持つ線形層が含まれるため、逆伝播時には大量の中間活性値を保存する必要があります。これは貴重なGPUメモリを占有するだけでなく、勾配チェックポイント(Gradient Checkpointing)技術の使用を強制し、計算負担をさらに増やします。

クロスノード通信を伴うパイプライン並列処理では、より広い残差流が直接通信データ量をn倍にし、通信バブル時間を大幅に増加させます。

二重確率行列多様体による恒等写像メカニズムの再構築

HCがもたらす安定性の課題に対面し、DeepSeekは単純な恒等写像に戻る選択をせず、insteadに、より精妙な数学的解決策mHCを提案しました。

mHCの核心的なアイデアは、残差流内の学習可能写像行列を特定の幾何多様体に射影することで、恒等写像のように信号伝播の安定性を維持しつつ、元のHCのように異なる残差流間の情報交換を可能にすることです。

DeepSeekが選択した特定の多様体は二重確率行列(Doubly Stochastic Matrices)の集合であり、幾何学的にはバーコフ多胞形(Birkhoff Polytope)とも呼ばれます。

行列が二重確率行列と呼ばれるには、3つの条件を満たす必要があります:全要素が非負、各行の和が1、各列の和が1。行列を二重確率行列に拘束すると、一連の極めて優れた数学的性質がもたらされます。

第一はノルム保持性質です。二重確率行列のスペクトルノルム(最大特異値)は1以内に厳密に制限されます。これは、この線形写像が非拡大写像であり、信号が処理された後、エネルギーが無限に増幅されないことを意味し、勾配爆発のリスクを根本的に排除します。

第二は複合閉包性です。二重確率行列の積は依然として二重確率行列です。これにより、ネットワークがどのくらいの層を重ねても、浅層から深層への複合写像は二重確率行列の多様体内に留まり、安定性がネットワーク全体の深度にわたって持続します。

幾何学的視点から見ると、二重確率行列は置換行列(Permutation Matrices)の凸結合と見なされます。特徴の平均値は厳密に保存されます。これは非常に良好な信号伝播メカニズムです。異なる残差流間の情報を通行・融合させつつ、総信号強度の暴走をエネルギー保存則のように制限します。

拡張係数n=1の時、二重確率条件はスカラー1に退化し、mHCは自然に古典的な恒等写像に後退します。これはmHCが残差接続のより一般的な一般化形式であることを示しています。

実際の計算でこの拘束を実現するために、mHCはSinkhorn-Knoppアルゴリズムを導入します。

数学的再構築を通じて、mHCは狂ったハイパー接続を成功裡に飼い馴らしました。

画像

実験結果によると、mHCを採用した後、元々3000に及ぶ信号増益幅度が1.6前後に抑制されました。これはSinkhorn-Knoppの有限回の反復による微小な誤差によるものであり、比較すると3桁も低下しています。

この桁違いの差異は、訓練曲線の滑らかさに直接的に反映されます。モデルは損失値の突然の変動を起こさず、勾配更新も安定して秩序だっていきます。

ソフトウェア・ハードウェア協同最適化によるメモリ帯域幅と通信制限の突破

数学的優雅さは、実際の性能に変換するために工学的な強力な支撐を必要とすることが多いです。

mHCが導入するn倍幅残差流とSinkhorn-Knopp反復計算は、従来のフレームワークで直接実装されると、受け入れ不可能なメモリと時間のオーバーヘッドをもたらします。

そのため、DeepSeekチームは、カーネル融合から通信スケジューリングまで、一連の深いインフラストラクチャ最適化を実施し、不可能を高效に変えました。

メモリ壁の問題に対処するため、核心戦略は極限的なカーネル融合(Kernel Fusion)です。

標準PyTorch実装では、RMSNorm、行列乗算、活性化関数などの操作は段階的に実行され、各ステップでデータをVRAMからチップ上に移動し、再び戻す必要があります。

mHCのようなIO集約型操作にとって、このモードは致命的です。DeepSeekはTileLangプログラミングモデルを利用して、カスタムの混合精度カーネルを開発しました。

VRAM占有量の最適化は、精密な再計算(Recomputing)戦略に依存しています。n流残差により巨大な中間活性値が導入されるため、逆伝播用にすべて保存するとVRAMが瞬時に満杯になります。

mHCは、計算でVRAMを犠牲にする戦略を採用し、VRAM占有量と計算時間の間で最良のバランスを実現しました。この戦略により、mHCは大規模モデルを訓練する際に、VRAM消費量を効果的に制御し、バッチサイズを犠牲にすることなく済みます。

大規模分散式訓練のシシナリオでは、パイプライン並列処理(Pipeline Parallelism)が不可欠です。

しかし、mHCが引き起こすn倍のクロスノード通信量は、巨大なボトルネックとなります。

この問題を解決するために、DeepSeekはDualPipeスケジューリング戦略を拡張しました。

画像

DualPipeは元々計算と通信をオーバーラップさせるために使用されましたが、mHCシシナリオでは、通信時間長すぎることにより、従来のオーバーラップ戦略は無効になりました。

新しいスケジューリングschemeは、計算フローを通常優先度と高優先度に分割します。通信フローをブロックしないよう、MLP層(フィードフォワードネットワーク)を処理するカーネルには高い優先度が与えられ、実行時間が長すぎる永続化カーネル(Persistent Kernels)が注意力層で使用されるのを避けます。

この設計は、計算タスクが柔軟に先取りされることを許容し、通信と計算が時間軸上で完璧にずれることを保証します。パイプライン段階の境界处でも、再計算と通信の依存関係をデカップルすることで、効率的なマスキングを実現します。

この一連のソフトウェア・ハードウェア协同最適化の効果は顕著です。

27Bパラメータモデルの実訓練において、ベースラインモデルと比較して、拡張係数n=4のmHCは訓練時間オーバーヘッドをわずか6.7%増加させました。mHCがもたらす性能向上を考慮すると、この微小な追加コストはほぼ無視できます。

これは、深いシステムレベルの最適化を通じて、複雑な数学的構造が既存のハードウェアで効率的に実行できることを証明しています。

3Bから27Bまでの実戦検証とスケーラビリティ分析

DeepSeekは異なる規模のモデルでmHCを包括的に検証しました。モデルアーキテクチャは混合エキスパートモデル(MoE)に基づいており、3B、9B、27Bのパラメータ量をカバーし、拡張係数nは統一して4に設定されています。

実験は最終的な性能指標だけでなく、訓練プロセスの安定性と、計算量(Compute)およびデータ量(Token)の変化に伴う拡張規律(Scaling Laws)も深く調査しました。

画像

最もコアな27Bモデル比較実験で、mHCは圧倒的な安定性優位性を示しました。ベースラインモデルと比較して、HCは訓練途中で頻繁に損失値の変動と勾配の激しい波動を起こしましたが、mHCの訓練曲線は平地を歩くように安定し、損失値は着実に低下し、最終的な検証セット損失はベースラインより0.021低かったです。

これは事前学習分野で非常に相当する差であり、通常、下流タスクにおけるモデルの性能が有意に向上することを意味します。

勾配ノルムの監視曲線もこれを裏付け、mHCの勾配挙動は最も安定した標準残差ネットワークとほぼ一致し、HCの那種的心電図のような激しい変動を完全に排除しました。

下流タスクの評価結果は、mHCの有効性をさらに裏付けました。

画像

BBH、DROP、GSM8K、MATHなどの8つの主要なベンチマークテストにおいて、mHCはベースラインモデルを全面的に上回り、ほとんどのタスクでオリジナルのHCを破りました。

特に、複雑な推理能力を必要とするBBHとDROPタスクでは、mHCはそれぞれ2.1%と2.3%の有意な向上を達成しました。

これは、mHCが訓練の不安定性を修復するだけでなく、多様体拘束を通じて導入された特徴混合メカニズムが、實際にモデルが複雑な情報流を処理し、深層推理を行う能力を強化したことを示しています。

スケーラビリティ実験は、mHCの応用展望により広い支撐を提供しました。

計算拡張曲線(Compute Scaling Curve)では、研究者は異なる計算予算(3B、9B、27Bモデルに対応)におけるmHCのベースライン相対性能向上幅度をプロットしました。

画像

結果は、モデル規模と計算量の増加に伴い、mHCがもたらす性能ボーナスが衰減せず、常に安定した正の領域に留まることを示しています。

これはmHCが良好なスケーラビリティを持つ技術であり、モデルが大きくなっても失敗しないことを意味します。

同時に、3Bモデルのトークン拡張曲線(Token Scaling Curve)では、訓練データ量の増加に伴い、mHCは常にベースラインに対する性能的優位性を維持しました。

DeepSeekの这项研究は、新しい宏観アーキテクチャ設計の視点を開きました。

幾何多様体拘束を導入することで、ニューラルネットワークは数学的性質を良好に維持したまま、トポロジー構造の複雑さを大幅に増やすことができます。

mHCは、正しい数学的拘束と極限的な工学的最適化さえあれば、計算と時間コストを著しく増やすことなく、既存アーキテクチャの性能天井を突破できる完全に証明しています。

これは、未来の兆パラメータモデルのアーキテクチャ進化に、稳健かつ高效な新しい道筋を提供します。

参考資料:

https://arxiv.org/abs/2512.24880


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.