MLNLPコミュニティは国内外で有名な機械学習と自然言語処理コミュニティであり、国内外のNLP修士・博士課程学生、大学教員、企業研究者を含む広範な読者層を有しています。

コミュニティのビジョンは、国内外の自然言語処理、機械学習の学術界、産業界、そして広大な愛好家との交流と進歩を促進することであり、特に初心者の学生たちの成長を支援することです。

出典 | 機械之心

拡散言語モデル（Diffusion Language Models, DLLMs）は、加速可能な非自己回帰並列生成特性、直接的な草稿編集特性、データ拡張特性など、多くの潜在的な特性により注目を集めています。しかし、そのモデル能力は、同等規模の強力な自己回帰（AR）モデルに劣後することが多いです。

近日、華中科技大学と字節跳動が共同でStable-DiffCoderを発表しました。これは単なる新しい拡散コードモデルではなく、「拡散学習がモデル能力の限界を向上させることができるか」についての深い探求です。

Stable-DiffCoderは、完全にSeed-Coderのアーキテクチャとデータを再利用し、Block Diffusion継続的事前学習（CPT）と一連の安定性最適化戦略を導入することで、性能を逆転させることに成功しました。複数のコード主要ランキング（MBPP、BigCodeBenchなど）において、AR原型を上回り、8B規模ではQwen2.5-Coder、Qwen3、DeepSeek-Coderなどの強力なオープンソースモデルを超越し、拡散学習パラダイム自体が強力なデータ拡張手段であることを証明しました。

論文タイトル: Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model
論文リンク: https://arxiv.org/pdf/2601.15892
Githubリンク: https://github.com/ByteDance-Seed/Stable-DiffCoder
モデルリンク: https://huggingface.co/collections/ByteDance-Seed/stable-diffcoder

拡散プロセスは効率的にサンプル知識を学習することが難しい

拡散プロセスは表面上は多くのデータを拡張でき、データ拡張の手段として機能しますが、実際には多くのノイズや誤った知識の学習を導入します。

例えば、以下の例があります：

これをマスクすると：

最後のmask_nについては、a=1、b=2を見た場合にのみa+b=7を学習し、誤った知識マッピングを形成することがわかります。最終的にせいぜい、a=3、b=4がa+b=という文脈での共起確率がより高いことを学ぶだけで、明確な加算ルールを学ぶことはできません。

トークン推論の知識とプロセス設計

論文はこの知識の学習をモデル化することでこの現象を説明しています：

cが現在可視サンプルであると仮定し、実際の分布に基づいて、これらのサンプルから現在の位置で推論できるトークン集合をC(c)とし、そのサイズをK(c)とします（ここでは複数のトークンが同時に推論される状況も考慮し、単一トークンの推論のみを簡略的に考慮）。実際の分布に基づいて定義されているため、cが多くてクリーンなほど、K(c)は小さくなります。

モデルが最終的に学習しようとする分布はであり、このプロセスをうまく学ぶには2つの条件が必要です：（1）K(c)が小さいこと；（2）データからサンプリングされるcが可能な限り多いこと。

したがって、純粋な双方向拡散プロセスを使用した場合、マスク比率が大きいと、現在のトークンが見るcが小さくなり、クリーンでない確率が大きくなり、K(c)が大きくなって明確なルールにマッピングしにくくなります。同時に、様々なcが生成され、平均的なcの学習量が減少します。さらに、学習サンプリングのcと推論に使用するcが一致していることを保証する必要があります。これにより、学習で得た知識をより適切に使用できます。

次に、論文は2.5Bモデルでの実験を通じてこの結論をさらに説明し証明しています。論文はARモデルから初期化し、新しい知識を学習します。論文は3つの学習方法を設計して探求しています：

（1）AR→BiDLLM: AR方式で継続的に学習し、100kステップで双方向DLLMにCPTします。

（2）ARDLLM→BiDLLM: AR構造を使用しますが、純粋な双方向サンプリングモードで学習します。その後、100kステップでBiDLLMにCPTします。

（3）BiDLLM: 純粋な双方向DLLMを使用して学習します。

最終的な効果は（1）>（2）>（3）であり、これは前述の理論と一致しています。ランダム[MASK]を使用しない（1）方式は、知識の圧縮速度が速く、BiDLLMに変換後も最高の性能を維持します。これは、DLLMを効率的に学習するためには、ARまたは小ブロックサイズのブロック拡散を使用して知識を圧縮できることを証明しています。また、興味深いことに、block=32では（1）と（2）の性能が（3）より劣りますが、100k以降は（3）より良くなります。100k以前は、ARサンプリングのcとblock size=32の推論プロセスのcが一致しにくいことを示していますが、ARが大量の有用な知識を圧縮しているため、少しCPTするだけでこの推論プロセスに適応できます。同時に、ARのような構造の先験的知識は、プロンプト+レスポンスのような左側から始める推論プロセスにより適している可能性があることも示しています。

したがって、私たちは学習プロセスを、まずARで知識を一度圧縮し、その後ARアニーリングの前のチェックポイントを使用して、小ブロックのブロック拡散に継続的にCPTするように設計しました。これにより、拡散プロセスのデータ拡張能力を探求します。

安定したDLLMウォームアップ戦略の継続的事前学習設計

拡散モデルの継続的事前学習は、通常、ハイパーパラメータ設計（学習率など）に非常に敏感で、勾配ノルムの異常な上昇が発生しやすく、様々な学習アーキテクチャの影響も受けます。様々な学習アーキテクチャの学習安定性を維持し、煩雑なパラメータ調整プロセスを簡略化するため、チームは適応型のウォームアップ戦略を設計しました。

DLLMのCPTプロセスが不安定な主な原因は以下の3つです：

（1）Attentionが単方向から双方向に変化すること

（2）Maskが増え、タスクが難しくなること

（3）ELBOを対応させるため、交差エントロピーの前に重み付け係数を乗算すること。例えば、1つのトークンのみをマスクした場合、このトークンのlossのみを計算することと等価になり、このトークンの勾配への影響が大幅に増加し、勾配ノルムとlossに影響します。

アニーリングAttentionの方法はflash attentionなどのアーキテクチャに柔軟に対応しにくいため、チームは（2）（3）に基づいてウォームアッププロセスを設計しました。具体的には、ウォームアップ段階でマスク比率の上限を徐々に最大値までウォームアップし、最初からタスクを易から難にします。

次に、ウォームアップ段階では、交差エントロピーの重み付け係数を除去し、各トークンのlossへの影響をより安定させます：

ブロック単位の切り捨てノイズスケジュール

ブロック拡散を使用する場合、クロスAttentionでクリーンなプレフィックスを接続することで、各トークンが有用なlossを生成できます。しかし、従来のノイズスケジュールを使用すると、一部のブロックがloss信号を生成しない可能性があります。積分を解くことで、ブロックが信号を生成しない確率を計算できます。これは小ブロックで特に顕著です：

したがって、チームは2つの設計を行いました：（1）各ブロックで必ず1つのトークンをサンプリングする；（2）ノイズサンプリング下限を1/Bに設定し、少なくとも期待値として1つのトークンをサンプリングできるようにする。同時に、強制的に1つのトークンをサンプリングした後、元の対応するtが小さくなりすぎ、交差エントロピーの重み付けが過大になるのを回避できます。

実験結果：複数のコードベンチマークで8B規模のモデルが首位を維持

ベースモデルの場合

Stable-DiffCoder-8B-Baseは、コード生成、複数コード言語生成、コード推論で優れた性能を発揮します。一連のARおよび拡散ベースのモデルを上回っています。さらに、モデルがC#、PHPなどの希少なコード言語（事前学習データが少ない）で、ARベースラインに比べて大幅に強化されていることがわかります。これは、DLLMの学習プロセスが一定のデータ拡張効果をもたらしたことを証明しています。同時に、コード推論能力も強化されています。

インストラクトモデルの場合

Stable-DiffCoder-8B-Instructは、コード生成、コード編集、コード推論などのタスクで総合的に評価され、優れた性能を示しています。中でも、humaneval、mbppなどの一般的なタスクでは、既存のARベースラインや他の8B規模のDLLMモデルを大幅に上回っています。テストセットが非公開のMHPPではqwen32Bのレベルに達し、BigCodeBenchでは一連のモデルを上回り、DeepSeek236Bモデルに次ぐ性能です。また、コード編集CanItEditタスクでは驚くべき効果を示しています。

まとめと展望

Stable-DiffCoderの発表は、「拡散モデルは並列加速のみに使用できる」という固定観念を打ち破りました。これは、拡散学習パラダイム自体が優れた表現学習手段であることを証明しています。適切なカリキュラム設計と安定性最適化を通じて、拡散モデルは従来のARモデルを上回るコード理解と生成品質を完全に実現できます。

将来の大規模モデルの進化において、Stable-DiffCoderは新しい道を示唆しています：おそらくARを捨てずに、ARを効率的な知識圧縮器として使用し、Diffusionを「強化剤」として利用することで、モデルの知性の限界をさらに押し上げることができるかもしれません。

Stable-DiffCoderが自己回帰モデルを超越！拡散モデルがコード生成で新たなブレークスルーを達成

拡散プロセスは効率的にサンプル知識を学習することが難しい

関連記事

分享網址