硬核,Google Jeff Dean:百萬晶片LLM預訓練瓶頸被徹底打破了!

想像你擁有一個百萬晶片的訓練叢集,每顆晶片大約一年會故障一次。聽起來很可靠對吧?但百萬顆晶片意味著整個叢集平均不到一分鐘就會發生一次故障。當今的訓練方式是:只要有一台機器出問題,全員都必須停下來等待。這種模式在規模大到一定程度後,根本無法持續運作。

圖片

Google 最新發表的論文《Decoupled DiLoCo》提出了另一種截然不同的思路:不要枯等,讓各組各自訓練,再進行非同步彙整。

Jeff Dean 大神也參與其中,他是 Google 的首席科學家(Chief Scientist)以及 Google DeepMind 的核心技術領導者。過去曾開發出 BigTable、MapReduce、TensorFlow 等影響深遠的系統。

能夠為參與解耦式 DiLoCo 訓練系統開發的人員提供一些建議和指導,我感到非常榮幸。這種方法能夠優雅地處理大規模訓練任務中的故障,允許 (N-1)/N 個單元在其中一個單元故障時繼續運行。
能夠為參與解耦式 DiLoCo 訓練系統開發的人員提供一些建議和指導,我感到非常榮幸。這種方法能夠優雅地處理大規模訓練任務中的故障,允許 (N-1)/N 個單元在其中一個單元故障時繼續運行。

大型模型訓練的致命弱點

當今的大型模型預訓練極度依賴 SPMD(單程式多資料)範式——所有晶片必須嚴格同步,每一個步驟都得等全員到齊。作者用分散式系統中的 CAP 定理來類比這個問題:

  • 一致性(C):所有晶片保持完全同步的模型權重
  • 可用性(A):硬體壞了,訓練照樣能繼續進行
  • 分區容忍性(P):網路不穩定,訓練照樣能繼續進行

現行的作法是「一致性優先」——為了保證所有晶片同步,不惜犧牲可用性與分區容忍性。最終導致的結果就是:只要有一台機器壞了,整座叢集就得停工

彈性資料平行化 vs 解耦方案對比
彈性資料平行化 vs 解耦方案對比

叢集的故障頻率有一條簡單的公式:MTBF_cluster = MTBI_chip / N_chip。晶片數量越多,叢集整體就越脆弱。以 150 萬顆晶片、每顆一年故障一次來計算,叢集平均每 5 分鐘就會發生一次故障。

核心方法:把大叢集拆成獨立的「學員」

Decoupled DiLoCo 的作法是將整個訓練叢集拆分成 M 個獨立的 learner(學員),每個學員使用自己分配到的資料片段獨立執行 AdamW 最佳化。學員之間完全隔離,彼此不直接通訊。

一個居中的 syncer(同步器)負責非同步彙整:它不會枯等人到齊,只要湊滿 K 個學員(最小值可設為 1)就開始合併更新。合併時採用 token 加權——處理資料量多、訓練步數少的學員權重較大(兼顧品質與數量)。另外還有 RDA(徑向-方向平均法),將梯度的方向與大小分開平均,確保不同數量的學員在合併時,梯度範數不會劇烈波動。

還有一項巧妙的設計:寬限視窗。如果網路有閒置時間,syncer 會多等一會兒讓更多學員跟上,相當於用閒置頻寬換取更好的樣本效率,但完全不會拖慢整體速度。

Decoupled DiLoCo 演算法流程
Decoupled DiLoCo 演算法流程

在系統架構上,syncer 運行於 CPU 機器上(不需要 GPU/TPU),每個學員都是一個獨立的 TPU 分區。學員之間不共享任何加速器資源,一台硬體損壞不會波及到其他學員。整個系統由 Google 的 Pathways 平台進行編排與調度。

Decoupled DiLoCo 系統架構
Decoupled DiLoCo 系統架構
Decoupled DiLoCo 解耦
Decoupled DiLoCo 解耦

關鍵結果:88% 有效算力 vs 58%,模型品質完全持平

在模擬 120 萬顆晶片、每顆晶片 MTBI=1 年的極端故障情境下:

  • Decoupled DiLoCo(M=8)有效算力 88%
  • 彈性資料平行化只有 58%
  • 更大的 M 甚至可以達到 100% 的運行時間,實現零停機

而在模型品質方面,於 Gemma 4 架構的 Dense 2B/5B/9B MoE 2.8B/3.8B 模型上,文字與視覺基準測試的下游效能與同步訓練完全可比。甚至連後訓練(SFT + RLHF)之後,三種預訓練方式的結果也幾乎一模一樣。

硬體故障下的韌性對比
硬體故障下的韌性對比
不同規模模型的擴展性
不同規模模型的擴展性

三項額外能力:異質混訓、動態擴縮、跨地域

異質晶片混合訓練:TPUv5e 與 TPUv5p 混合使用,原生速度差距達 18%,再注入 10% 的隨機波動。結果顯示,K=1 搭配寬限視窗的機器學習效能,與完全同步的 K=8一模一樣——不再被最慢的晶片拖累進度。

圖片

動態擴縮(Scavenging):基礎配置為 M=4 個學員,臨時擴增到 M=8 或 M=16。在相同運算量(Iso-FLOPs)下能加速訓練,但模型品質保持不變。這就好比「撿到便宜」,利用臨時閒置的算力來為訓練加速。

圖片

跨地域訓練:8 個學員分散在各地,標準的資料平行化變得窒礙難行(速度慢了 10 到 20 倍),而 Decoupled DiLoCo 幾乎不受影響。其頻寬需求比資料平行化低了兩個數量級

結語

規模越大,非同步訓練的優勢就越明顯。作者明確指出,Decoupled DiLoCo 在模型品質上,隨著規模增大,相對於資料平行化的表現反而更好;而系統層面的優勢(容錯能力、頻寬需求、異質支援)也恰好在規模越大時越發重要。這是一個「苦澀的教訓」(bitter lesson)式的結論——越簡單、越能善用規模優勢的方法,最終越能勝出。

目前的實驗規模最大達到 9B 參數,在 M=16 時機器學習效能略有下降,代表學員的數量存在上限。但隨著訓練走向跨地域、跨晶片世代,可用性優先將從「優勢」轉變為「必須」

論文標題: Decoupled DiLoCo for Resilient Distributed Pre-training
論文連結: https://arxiv.org/abs/2604.21428v1

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.