この論文はデータセンターの視点から説明する:大規模モデルがより強力なのは、より多くを表現できるからだけでなく、長尾タスクをよりよく保持できるからでもある。
なぜ大規模モデルは小規模モデルより強いのか?
パラメータが多く、データが多く、計算資源が多ければ、モデル能力もそれに応じて向上する——これは過去数年の大規模モデル開発における安定した経験則となってきた。
より難しい問いは、大規模モデルが小規模モデルより具体的に何を多く学翆したのかだ。小規模モデルがそれらのタスクを完全に表現できないのか、それとも表現できるものの、事前学習では安定して学習しにくいだけなのか? 小規模モデルにより多くのデータとより長い学習を与えれば、いつか追いつける可能性があるのか?
Stanford、Harvard、MIT、Anthropic などの機関が参加したこの新しい論文は、より具体的な説明を与えている:大規模モデルの優位性は表現能力が強いだけでも、サンプル効率が高いだけでもない。
多くの場合、小規模モデルが完全に学べないわけではなく、混合データ訓練において低頻度・複雑なタスクの信号を保持できないだけだ。
論文タイトル:
Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention
論文URL:
https://arxiv.org/abs/2605.29548
大規模モデルが持つ追加の容量は、高頻度タスクによる低頻度タスクの上書きを抑制し、稀少タスクの微弱な信号が後続の学習で即座に洗い流されないようにする。
〓データ拡張で一部の差は埋められるが、もう一部にはモデル拡張が必要
大規模モデルが獲得する追加能力
論文はまず「大規模モデルの方が強い」を2種類のケースに分解する。
一方はデータ拡張で埋められる差だ。有限の計算資源下では小規模モデルが大規模モデルに劣るが、データや訓練リソースを増やし続ければ、理論上は追いつく可能性がある。ここでの大規模モデルは、より速く、より少ないサンプルで学習する存在に見える。
もう一方はモデル拡張に依存しなければ埋まらない差だ。無限データ下での極限性能を考慮しても、小規模モデルは有限計算資源下で大規模モデルが達成する loss に到達できない。これは訓練分布の中に、同じ訓練条件下では小規模モデルが学習困難な内容が存在することを意味する。
同じ混合訓練データの中で、どのタスクが先に学習され、どのタスクが押し出されるのか?
実在する事前学習コーパス内のタスクは均一ではない。言語モデリング目標の裏には大量のサブタスクが混在している:高頻度なものもあれば低頻度なものもある;単純なものもあれば、泛化により多くの構造を必要とするものもある。モデル容量が有限なら、これらのタスクは同一の表現リソースを巡って競合する。
モデルは何を優先して学翆するか?
著者らは合成多タスク回帰実験を構築した。各タスクには2つのキー属性がある:出現頻度と複雑度。
データ中での出現頻度が高いタスクほど、全体 loss への影響が大きい。複雑度はタスク特徴スペクトルで特徴づけられる。スペクトルの減衰が遅いほど、そのタスクをうまく学翆するにより多くの特徴方向を必要とし、有限幅のモデルでは十分に保持しにくい。
最も核心的な優先順位ルールは:
ここで はタスク頻度、 はタスク内のある特徴方向の重要度である。両者の積がこの特徴の効用となる。
モデル幅が のとき、効用最大の上位 個の特徴を優先的に保持する。モデルは容量を均等に割り当てず、全体 loss を最も下げられる特徴を優先的に保持する。
したがって、高頻度タスクと低複雑度タスクほど学翆されやすい。低頻度・複雑タスクが表現不能というわけではなく、リソース競争での順位が後ろになるだけだ。小規模モデルの容量が高効用特徴で埋め尽くされると、長尾タスクはモデル表現に入り込めなくなる。
〓モデル幅増加後、低頻度タスクが徐々に学翆され始める
上図では、著者らは異なる幅のモデルを訓練し、32個の頻度の異なる回帰タスクを混合した。結果は、モデル幅が増すにつれ、モデルがより低効用の特徴を保持し始め、低頻度タスクをよりよく学翆することを示している。実験傾向は定理3の効用順序と基本的に一致する。
大規模モデルが持つ追加パラメータにより、本来後順位だったタスクも表現空間に入る機会を得る。
勾配干渉と信号保持
低頻度タスクは滅多に出現しない。モデルがそれを学翆するには、稀少サンプルの複数回出現の間、既存信号を保持し続けなければならない。
稀少タスクサンプルが出現したとき、小規模モデルのパラメータも確かにこのタスク方向に更新される。しかし次の稀少タスクが出現するまで、大量の高頻度タスクサンプルが同一パラメータ群を更新し続け、書き込まれたばかりの稀少タスク信号はすぐに上書きされる。
論文はこの動態を更新—忘却ループと総括する:稀少タスクが一度出現し、小規模モデルが短期的に関連信号を書き込む;高頻度タスクの学翆が続き、信号が徐々に減衰;次に稀少タスクが出現したとき、モデルはほぼ出発点に戻っている。
モデル幅が十分大きければ、一般的タスクをより充分に説明できるようになる。一般的タスクの残差信号が下がれば、パラメータへの勾配引力も弱まる。稀少タスクによる更新がそれほど容易に洗い流されなくなり、モデルは複数回の低頻度観測を累積できるようになる。
定理4が与える直観的結論は:一般的タスクの全体勾配は残差信号で制御される。一般的タスクがまだ十分に学翆されていない間は更新方向を占有し続ける;説明が充分に進めば干渉が弱まり、残り容量が稀少タスクに回りやすくなる。
〓一般的タスク残差低下後、稀少タスク信号が安定して表現に入る
上図では、小規模モデルにはまだ大量の一般的タスク残差信号が説明待ちであり、稀少タスク信号はほぼランダムに近い;モデル幅が論文予測の閾値を超えると、一般的タスク残差が下がり、稀少タスクがようやく安定してエンコードされ始める。
〓小規模モデルは稀少タスクを一時的にエンコードするがすぐ減衰、大規模モデルは保持し累積できる
上図では、著者らは稀少タスクの全体頻度を固定し、隣接する2回の注入間隔のみを変えた。小規模モデルは注入後마다稀少タスクを短期的にエンコードするが、すぐに減衰する;大規模モデルは注入間隔中により多くの信号を保持し、訓練中に徐々に累積できる。
これは、大規模モデルの優位性が表現可能な内容が多いだけでなく、低頻度タスク信号の保持能力が強いことにも由来することを意味する。
OLMo 事前学翆での検証
論文はこのメカニズムを OLMo 事前学翆パイプラインで検証した。実験では 4M、20M、300M、1B、4B の5段階の OLMo モデルを訓練し、最大 210B tokens まで学翆させた。
事前学翆コーパスには Dolma v1.7 を使用。タスク頻度を制御するため、通常の事前学翆データでは自然発生しにくい2つのタスクをコーパスに注入した:比較タスク TCMP とモジュラ加算タスク TADD。
これら2タスクは単純な記憶課題ではない。各タスクに10Kインスタンスがあり、訓練とテストで半分ずつ。比較タスクはトークンの大域的順序構造の習得を、モジュラ加算タスクはフーリエパターンの捕捉を要求する。テスト精度は、モデルが訓練サンプルを単に記憶したのか、泛化可能な構造を学翆したのかを測る。
〓OLMo 事前学翆において、大規模モデルほど低頻度注入タスクを習得できる
行動レベルの結果は合成実験と一致:モデルが大きいほどより低頻度の注入タスクを習得できる;小規模モデルは低頻度タスクでの訓練 loss が高く、テスト精度も低い。
著者らは loss だけでなく、表現と勾配レベルまで追跡した。
表現レベルでは、モデル規模とタスク頻度の上昇に伴い、TCMP の大域的順序特徴、TADD のフーリエ特徴がモデル内部表現により明確に現れるようになる。
〓モデルが大きく、タスク頻度が高いほど、タスク関連特徴が表現空間により明確に入る
勾配レベルでは、著者らは TCMP 訓練ラン中のタスク関連ニューロン群に着目し、バッチ勾配とタスク参照方向のコサイン類似度を分析した。
さらに、バッチ勾配をタスク・トークン勾配と非タスク・トークン勾配に分解した。
〓大規模モデルの非タスク勾配はタスク方向への干渉がより小さい
結果は、大規模モデルはタスク注入時により明確なタスク信号を携え、非タスク・トークン勾配がタスク方向をほとんど干渉しない;小規模モデルではランダムな衝突と干渉が起こりやすいことを示した。
3層の証拠が同一結論を指す:モデルが大きいほど、タスク間の相互上書きが少ない。
スケーリングを超えた示唆
この論文はスケーリングの優位性を単一原因に帰着させていない。大規模モデルは確かにより強い表現能力を持ち、しばしばより良いサンプル効率も示す。
論文の議論部でも強調されているように、ここでの説明はスケーリングの完全な理論ではなく、表現能力・サンプル効率と補完関係にある。
この論文が真に補完するのは別の層の問いだ。混合データ訓練において、能力はモデルが表現できるかだけでなく、勾配最適化が現在のデータ分布から安定して学翆できるかでも決まる。
目標能力が本来低頻度・複雑タスクなら、モデル拡大が唯一の選択肢ではない。データ配分調整、目標タスク頻度の向上が、単純なモデル拡大より効率的かもしれない。タスク間勾配干渉を体系的に低減する方法は、今後の研究課題だ。
論文はまた、記憶が訓練における副作用ばかりではないことを示唆する。稀少タスクでは、記憶がバッチ間で信号を累積し、最終的に抽象構造を習得する前提となり得る。
大規模モデルが小規模モデルより強いのは、パラメータが多く容量が大きいからだけではない。より具体的に言えば、一般的タスクと稀少タスクの正面衝突を減らすからだ。
小規模モデルでは書き込まれてすぐ洗い流されていた稀少タスク信号こそが、大規模モデルが真に多く学翆した部分かもしれない。