核心、Googleジェフ・ディーン：100万チップLLM事前学習のボトルネックが完全に打破された！

100万チップの学習クラスターがあり、各チップが約1年に1度故障すると想像してみてください。信頼性が高いように聞こえますか？しかし100万チップあるということは、クラスター全体では平均して1分も経たないうちに故障が発生することを意味します。現在の学習方法では、1台のマシンに問題が発生すると、全員が停止して待機します。これは、大規模化が進むと、まったく持続不可能になります。

Googleの最新論文「Decoupled DiLoCo」は、別の考え方を提案しています：待たずに、各自が練習し、非同期で集約する。

ジェフ・ディーン氏も参加しています。彼はGoogleのチーフサイエンティストであり、Google DeepMindの中心的な技術リーダーです。BigTable、MapReduce、TensorFlowの開発に携わりました。

分離型DiLoCo学習システムの開発に携わる方々に、いくつかのアドバイスとガイダンスを提供できることを大変光栄に思います。この手法は、大規模な学習タスクにおける障害をエレガントに処理し、1つのユニットが故障しても、(N-1)/N個のユニットが稼働を継続できるようにします。

大規模モデル学習の致命的な弱点

今日の大規模モデルの事前学習は、SPMD（単一プログラム複数データ）パラダイムに依存しています。すべてのチップが厳密に同期され、すべてのステップで全員が揃うのを待つ必要があります。著者は、この問題を分散システムのCAP定理に例えて説明しています。

一貫性（C）：すべてのチップが完全に同期したモデルの重みを維持する
可用性（A）：ハードウェアが故障しても学習を継続できる
分断耐性（P）：ネットワークが不安定でも学習を継続できる

現在のアプローチは「一貫性優先」です。すべてのチップの同期を保証するために、可用性と分断耐性を犠牲にしています。その結果、1台のマシンが故障すると、クラスター全体が停止します。

クラスターの故障頻度には簡単な公式があります：MTBF_cluster = MTBI_chip / N_chip。チップが多ければ多いほど、クラスター全体は脆弱になります。150万チップで、それぞれが1年に1度故障すると、クラスター全体では平均して5分ごとに故障が発生します。

中核的手法：大規模クラスターを独立した「学習者」に分割

Decoupled DiLoCoのアプローチは、学習クラスター全体をM個の独立した学習者（learner）に分割することです。各学習者は独自のデータシャードを使用して、独立してAdamW最適化を実行します。学習者同士は完全に隔離されており、直接通信することはありません。

中央の同期装置（syncer）が非同期集約を担当します。これは全員が揃うのを待たず、K人の学習者が集まり次第（最小で1に設定可能）、更新の統合を開始します。統合にはトークン加重が使用され、より多くのデータを処理し、学習ステップ数が少ない学習者の重みが大きくなります（質×量）。さらに、RDA（放射状方向平均）があり、勾配の方向と大きさを別々に平均化することで、異なる数の学習者を統合する際に勾配ノルムが急激に変動しないようにします。

もう一つの巧妙な設計は、猶予ウィンドウです。ネットワークにアイドル時間がある場合、同期装置はより多くの学習者が追いつくのを少し長く待ちます。これは、アイドル状態の帯域幅をより良いサンプル効率と交換するようなものですが、全体的な速度を低下させることはありません。

システムアーキテクチャ上では、同期装置はCPUマシン上で動作し（GPU/TPUは不要）、各学習者は独立したTPUパーティションです。学習者間でアクセラレータリソースは一切共有されず、1台が故障しても他に影響は及びません。システム全体は、GoogleのPathwaysによってオーケストレーションされ、スケジューリングされます。

主要な結果：88%の有効計算能力 vs 58%、モデル品質は完全に同等

120万チップ、チップあたりのMTBI=1年という極端な故障シナリオをシミュレーションした結果：

Decoupled DiLoCo（M=8）の有効計算能力は88%
エラスティックデータ並列は58%のみ
より大きなMでは、100%の稼働時間、ゼロダウンタイムを達成可能

モデル品質に関しては、Gemma 4アーキテクチャのDense 2B/5B/9BおよびMoE 2.8B/3.8Bにおいて、テキストおよびビジョンベンチマークの下流性能は、同期学習と完全に比較可能です。事後学習（SFT + RLHF）後でも、3つの事前学習方式の結果はほぼ一致しました。

3つの追加能力：異種混合学習、動的スケーリング、地域横断

異種チップ混合学習：TPUv5e + TPUv5pの混合。本来の速度差は18%で、さらに10%のランダムな変動を注入。K=1に猶予ウィンドウを設定した場合のMLパフォーマンスは、完全同期のK=8と全く同じでした。最も遅いチップに足を引っ張られることはもうありません。

動的スケーリング（Scavenging）：基本はM=4人の学習者で、一時的にM=8またはM=16に増加。Iso-FLOPs条件下で学習を加速させつつ、モデル品質は変わりません。これは、一時的にアイドル状態の計算リソースを「無料で」利用して加速させるようなものです。

地域横断学習：8人の学習者が各地に分散している場合、標準的なデータ並列は使用不可になり（10～20倍遅くなる）、Decoupled DiLoCoはほとんど影響を受けません。帯域幅要件は、データ並列よりも2桁低くなります。

最後に

規模が大きくなればなるほど、非同期学習は魅力的になります。著者は、Decoupled DiLoCoのモデル品質は、規模が大きくなるにつれてデータ並列と比較して相対的に優れており、システム面での利点（耐障害性、帯域幅、異種混合）も、まさに規模が大きくなるほど重要になることを明確に指摘しています。これは「苦い教訓（bitter lesson）」的な結論です。よりシンプルで、スケールを活用できる方法が、最終的に勝つのです。

現在の実験は最大で9Bパラメータであり、M=16ではMLパフォーマンスがわずかに低下することから、学習者数には上限があることが示唆されています。しかし、学習が地域を越え、チップの世代を越える方向に進むにつれて、**可用性の優先は「利点」から「必須事項」へと変わるでしょう**。

論文タイトル: Decoupled DiLoCo for Resilient Distributed Pre-training
論文リンク: https://arxiv.org/abs/2604.21428v1

核心、Googleジェフ・ディーン：100万チップLLM事前学習のボトルネックが完全に打破された！

大規模モデル学習の致命的な弱点

中核的手法：大規模クラスターを独立した「学習者」に分割

主要な結果：88%の有効計算能力 vs 58%、モデル品質は完全に同等

3つの追加能力：異種混合学習、動的スケーリング、地域横断

最後に

関連記事

分享網址