200Mの実トークンで学習したモデルが、なぜ360Mデータ量の効果に匹敵するのか？

事前学習データが枯渇しつつある——計算リソースの成長速度は、利用可能なウェブテキストの成長速度を遥かに上回っている。データがボトルネックとなっている今、限られた実データからいかにしてより多くの価値を搾り取るか？スタンフォード大学のある研究が、意外な答えを提示している：同一の文書から生成した複数の合成変体を「縫い合わせ」て、一つの超長文「メガドキュメント（megadoc）」を作成することで、データ効率を1.48倍から1.80倍へと引き上げることができる。

問題の起点：合成データは元の分布のモデリングを改善できるか？

本論文が焦点を当てているのは、事前学習が計算制約ではなくデータ量制約を受けている状況において、合成データによる拡張が元のウェブテキスト分布上での検証損失（i.i.d. loss）を低減できるかという核心的な問題である。ここで重要なのは「元の分布」だ——合成データは全く異なる分布から生成されたものであり、それが元データのモデリングに本当に役立つのか？

論文の実験設定は非常に明確である：200Mの実トークン（164,000篇のDCLM文書から抽出）を使用し、過パラメータ化された300Mパラメータの自己回帰Transformerを、コンテキスト長4096で学習させる。目標は、無限の計算リソース下で最高のモデルを学習することだ。合成データ生成器にはLlama 3.1 8B Instructを使用した。

第一歩：単純な言い換えでも有意な向上

論文はまず、最も単純な合成データ生成方法をテストした：各実文書に対して、英語Wikipediaスタイルの複数の「言い換え（rephrase）」を生成する。温度は1、最大生成トークン長は1024トークンとする。平均すると、各言い換え文書は708トークンで、元のDCLM文書の平均長1243トークンよりも短い。

[Figure 2: 合成生成数のスケーリング] 左の図は、文書あたりの言い換え数Gが増加するにつれてi.i.d.検証損失が単調に減少する傾向を示しており、32回の言い換えでプラトーに近づく。右の図は、下流タスクのベンチマーク精度の向上が損失改善の傾向と一致していることを示している。

学習時、論文ではデータを二つのストリームに分けている：実データストリームと合成データストリーム（G×D篇の言い換えとD篇の元文書を含む）。混合比率とエポック数を精細に調整して学習を行う。ベースラインモデルは200Mの実トークンで3.55のi.i.d.損失を達成したが、32回の言い換えを混合することで損失は3.41に低下し、1.48倍のデータ効率向上に相当する。下流タスク（PIQA、SciQ、ARC Easy）の平均精度は5%向上した。

しかし問題が生じた：損失曲線は32回の言い換え付近で明らかにプラトーに達し、生成回数をさらに増やしても収益は僅かだった。

核心のイノベーション：「複数の短文書」から「一篇のメガドキュメント」へ

標準的な言い換え手法では、すべての合成文書を独立したサンプルとしてランダムにシャッフルして学習するが、これは一つの重要な構造を無視している——同一の実文書に基づく複数の合成変体は高度に相関しているということだ。論文は全く新しい視点を提示した：同一文書の複数の合成生成を連結して、一つの超長の「メガドキュメント（megadoc）」を作成する。

[Figure 3: メガドキュメントの合成データフロー] 単純な言い換えはすべての生成結果と実文書をランダムに並べる。縫い合わせ言い換えは同一の実文書のすべての言い換えを連結し、実文書は先頭または末尾に配置できる。潜在思考は文書の固定分割点に接頭辞と接尾辞をつなぐ推論連鎖を挿入する。

論文はメガドキュメントを構築する二つの方法を提案した：

（1）縫い合わせ言い換え（Stitched Rephrasing）：In-context Pre-training（ICPT）に着想を得て、同一の実文書のG篇の言い換えと原文をEOSトークンで連結して一篇の長文書を作成する。ICPTがコーパス全体の埋め込みと高類似度探索を必要とするのとは異なり、合成データの縫い合わせはほぼゼロコストである。なぜなら、どの生成結果が互いに関連しているか事前に分かっているからだ。実験の結果、実文書をメガドキュメントの末尾に配置するのが最も効果的だった。論文はこれを「逆方向タスクはより困難だがより価値がある」という事実と関連付けている——簡素化された言い換えからより詳細な実文書を復元することで、モデルはより転移可能な構造を学習できる。

（2）潜在思考（Latent Thoughts）：Latent Thoughtsメソッドに着想を得て、各文書をG+1個の等長断片に分割し、各分割点で生成器に接頭辞から接尾辞を導出する推論連鎖（rationale）を生成させ、タグで囲んで原文に挿入する。平均して各思考断片は424トークンで、平均言い換えの708トークンより短い。

[Figure 1: 生成数量のスケーリングとメガドキュメントによる合成データ拡張] ベースラインモデルは3.55の損失に達する。単純な言い換え（オレンジ）は生成回数の増加とともに単調に改善するがプラトーに向かう。縫い合わせ言い換え（青）と潜在思考（灰）は損失がより低く、生成回数が増加してもプラトー効果がより弱い。

効果：データ効率が1.48倍から1.80倍へ飛躍

[Figure 5: 縫い合わせと潜在思考の生成数量スケーリング] 縫い合わせ言い換えと潜在思考は、i.i.d.損失、長文脈損失、下流ベンチマーク精度のいずれにおいても単純な言い換えより優れており、改善幅度は生成回数の増加とともに拡大する。

32回の生成において、縫い合わせ言い換えは1.64倍のデータ効率、潜在思考は1.80倍のデータ効率を達成し、いずれも単純な言い換えの1.48倍を大幅に上回った。より重要なのは、メガドキュメント手法の収益が生成回数の増加とともに継続的に拡大したことだ：4回の生成時の最適改善は0.02だったが、32回の生成では0.07に拡大した。下流ベンチマークテストの平均精度はそれぞれ6%と9%向上した。

長文脈タスクにおいて、効果はより顕著だった。arXivのコンピュータ科学論文でテストしたところ、32回の生成でそれぞれ0.14と0.19の損失改善を獲得した。論文はさらに、メガドキュメント手法が短文書（600トークン以下）においても単純な言い換えより良くスケールすることを検証し、収益が長文脈のみに限定されないことを示した。

なぜメガドキュメントの拡張性がより高いのか？

論文はメガドキュメントの優位性を二つの効果の重ね合わせに帰している：メガドキュメント自体がもたらす定数レベルの損失改善、そして過学習することなくより長時間の学習を可能にする能力だ。具体的には、縫い合わせ言い換えは実データのエポック数を16から32へ、混合比率を0.75から0.9へと増加させることができ、総学習ステップは約5倍増加しても過学習が発生しなかった。

[Figure 6: メガドキュメントはより多くの実データと合成データの学習ステップから恩恵を受ける] 学習ステップを制御すると、メガドキュメントでも改善は見られるが生成回数に対する拡張性は消失し、より長い学習がその優位性の拡張性の重要な源泉であることが示された。

アンサンブル手法との組み合わせ

論文はさらに、合成データ手法が強力なデータ効率手法であるアンサンブル（ensembling）と組み合わせ可能かを検証した。結果、自己蒸留（self-distillation）はアンサンブルと組み合わせられないことが分かった——自己蒸留モデルのアンサンブルの漸近損失（3.32）は標準的なアンサンブル（3.31）とほぼ同じだった。一方、単純な言い換え、縫い合わせ言い換え、潜在思考の三つの手法はいずれもアンサンブルと組み合わせ可能で、各手法がアンサンブルの漸近損失を少なくとも0.12改善した。

[Figure 7: 言い換えとアンサンブルの組み合わせ] 自己蒸留はアンサンブルの漸近線を改善できないが、三つの合成データ拡張手法はいずれもアンサンブルの漸近線を改善し、その収益がアンサンブルや自己蒸留とは本質的に異なることを示している。

考察

本論文は学生モデルより強力な外部生成器を使用した。しかし、三つの証拠が合成データの収益が単なる蒸留の産物ではないことを支持している：（1）学生モデルを300Mから1.5Bに拡大した後、三つの手法の損失改善幅度はすべて小さくなるどころか大きくなった；（2）先行研究はLlama 3.1 8B Instructが自己生成言い換えによって自己改善できることを証明している；（3）複数の研究が、言い換え生成器の能力は一定規模を超えると有意な助けにならなくなることを発見しており、言い換えは蒸留よりもむしろ拡張手段に近いことを示唆している。

合成データの価値は「より多くのデータを作る」ことだけでなく、より良い学習タスクを構築することにある。複数の独立した文書を縫い合わせて一篇のメガドキュメントにするという単純な視点の転換から、論文はデータが制約されている状況で、計算リソースの増大とともに継続的に恩恵を受けられる合成データアルゴリズムをいかに設計するかを示している。

原文タイトル：Data-efficient pre-training by scaling synthetic megadocs
原文リンク：https://arxiv.org/abs/2603.18534

#無影寺

200Mの実トークンで学習したモデルが、なぜ360Mデータ量の効果に匹敵するのか？

関連記事

分享網址