硬核，Google Jeff Dean：百萬晶片LLM預訓練瓶頸被徹底打破了！

想像你擁有一個百萬晶片的訓練叢集，每顆晶片大約一年會故障一次。聽起來很可靠對吧？但百萬顆晶片意味著整個叢集平均不到一分鐘就會發生一次故障。當今的訓練方式是：只要有一台機器出問題，全員都必須停下來等待。這種模式在規模大到一定程度後，根本無法持續運作。

Google 最新發表的論文《Decoupled DiLoCo》提出了另一種截然不同的思路：不要枯等，讓各組各自訓練，再進行非同步彙整。

Jeff Dean 大神也參與其中，他是 Google 的首席科學家（Chief Scientist）以及 Google DeepMind 的核心技術領導者。過去曾開發出 BigTable、MapReduce、TensorFlow 等影響深遠的系統。

能夠為參與解耦式 DiLoCo 訓練系統開發的人員提供一些建議和指導，我感到非常榮幸。這種方法能夠優雅地處理大規模訓練任務中的故障，允許 (N-1)/N 個單元在其中一個單元故障時繼續運行。

大型模型訓練的致命弱點

當今的大型模型預訓練極度依賴 SPMD（單程式多資料）範式——所有晶片必須嚴格同步，每一個步驟都得等全員到齊。作者用分散式系統中的 CAP 定理來類比這個問題：

一致性（C）：所有晶片保持完全同步的模型權重
可用性（A）：硬體壞了，訓練照樣能繼續進行
分區容忍性（P）：網路不穩定，訓練照樣能繼續進行

現行的作法是「一致性優先」——為了保證所有晶片同步，不惜犧牲可用性與分區容忍性。最終導致的結果就是：只要有一台機器壞了，整座叢集就得停工。

叢集的故障頻率有一條簡單的公式：MTBF_cluster = MTBI_chip / N_chip。晶片數量越多，叢集整體就越脆弱。以 150 萬顆晶片、每顆一年故障一次來計算，叢集平均每 5 分鐘就會發生一次故障。

核心方法：把大叢集拆成獨立的「學員」

Decoupled DiLoCo 的作法是將整個訓練叢集拆分成 M 個獨立的 learner（學員），每個學員使用自己分配到的資料片段獨立執行 AdamW 最佳化。學員之間完全隔離，彼此不直接通訊。

一個居中的 syncer（同步器）負責非同步彙整：它不會枯等人到齊，只要湊滿 K 個學員（最小值可設為 1）就開始合併更新。合併時採用 token 加權——處理資料量多、訓練步數少的學員權重較大（兼顧品質與數量）。另外還有 RDA（徑向-方向平均法），將梯度的方向與大小分開平均，確保不同數量的學員在合併時，梯度範數不會劇烈波動。

還有一項巧妙的設計：寬限視窗。如果網路有閒置時間，syncer 會多等一會兒讓更多學員跟上，相當於用閒置頻寬換取更好的樣本效率，但完全不會拖慢整體速度。

在系統架構上，syncer 運行於 CPU 機器上（不需要 GPU/TPU），每個學員都是一個獨立的 TPU 分區。學員之間不共享任何加速器資源，一台硬體損壞不會波及到其他學員。整個系統由 Google 的 Pathways 平台進行編排與調度。

關鍵結果：88% 有效算力 vs 58%，模型品質完全持平

在模擬 120 萬顆晶片、每顆晶片 MTBI=1 年的極端故障情境下：

Decoupled DiLoCo（M=8）有效算力 88%
彈性資料平行化只有 58%
更大的 M 甚至可以達到 100% 的運行時間，實現零停機

而在模型品質方面，於 Gemma 4 架構的 Dense 2B/5B/9B 和 MoE 2.8B/3.8B 模型上，文字與視覺基準測試的下游效能與同步訓練完全可比。甚至連後訓練（SFT + RLHF）之後，三種預訓練方式的結果也幾乎一模一樣。

三項額外能力：異質混訓、動態擴縮、跨地域

異質晶片混合訓練：TPUv5e 與 TPUv5p 混合使用，原生速度差距達 18%，再注入 10% 的隨機波動。結果顯示，K=1 搭配寬限視窗的機器學習效能，與完全同步的 K=8一模一樣——不再被最慢的晶片拖累進度。

動態擴縮（Scavenging）：基礎配置為 M=4 個學員，臨時擴增到 M=8 或 M=16。在相同運算量（Iso-FLOPs）下能加速訓練，但模型品質保持不變。這就好比「撿到便宜」，利用臨時閒置的算力來為訓練加速。

跨地域訓練：8 個學員分散在各地，標準的資料平行化變得窒礙難行（速度慢了 10 到 20 倍），而 Decoupled DiLoCo 幾乎不受影響。其頻寬需求比資料平行化低了兩個數量級。

結語

規模越大，非同步訓練的優勢就越明顯。作者明確指出，Decoupled DiLoCo 在模型品質上，隨著規模增大，相對於資料平行化的表現反而更好；而系統層面的優勢（容錯能力、頻寬需求、異質支援）也恰好在規模越大時越發重要。這是一個「苦澀的教訓」（bitter lesson）式的結論——越簡單、越能善用規模優勢的方法，最終越能勝出。

目前的實驗規模最大達到 9B 參數，在 M=16 時機器學習效能略有下降，代表學員的數量存在上限。但隨著訓練走向跨地域、跨晶片世代，可用性優先將從「優勢」轉變為「必須」。

論文標題: Decoupled DiLoCo for Resilient Distributed Pre-training
論文連結: https://arxiv.org/abs/2604.21428v1

硬核，Google Jeff Dean：百萬晶片LLM預訓練瓶頸被徹底打破了！

大型模型訓練的致命弱點

核心方法：把大叢集拆成獨立的「學員」

關鍵結果：88% 有效算力 vs 58%，模型品質完全持平

三項額外能力：異質混訓、動態擴縮、跨地域

結語

相關文章推薦

分享網址