高速で省エネ？わずか5%のパラメータで訓練が4倍速く！ArcFlowが「非線形」の魔法でFLUX/Qwen推論を40倍加速

生成式AIの波の中で、Stable DiffusionからFLUX、Qwen-Imageといった大規模拡散モデルの画質の飛躍を目撃してきました。しかし、この飛躍は代償なしには実現できません。純粋なノイズから「彫刻」のように鮮明な画像を生成するため、これらのモデルは通常、40〜100ステップ（NFE）の反復デノイズ処理を必要とします。この遅延により、モデルは実際のリアルタイム生成や大規模サービスに真に適用することが困難になっています。

そこで、「少歩生成」（Few-step Generation）が競争の焦点となっています。Teacherモデルの曲がった生成軌道に対して、現在の少歩加速手法（Progressive Distillation、Distribution Matchingなど）はすべて同じことを試みています：曲がりくねった道を直線にし、一歩で目的地に到達させる。

しかし、元の高次元空間の生成軌道は非常に複雑であり、無理に「直線化」すると軌道上の幾何学的ミスマッチ（Geometric Mismatch）が発生します。これにより、少歩生成時の構造崩壊や詳細の喪失を直接招きます。

高速であるだけでなく、元の曲がった生成軌道に従う方法はないのでしょうか？

复旦大学とMicrosoftアジア研究所によるArcFlowが答えを示しました：道が曲がっているなら、「ドリフト」することを学び、道を直線化するのではない。

論文アドレス：https://arxiv.org/abs/2602.09014
プロジェクトコード：https://github.com/pnotp/ArcFlow

一、困境：なぜ「直線を歩く」ことが難しいのか？

拡散モデルでは、Teacherモデル（事前学習済みTeacher）の生成プロセスは本質的に高次元空間で微分方程式を解き、多ステップ積分を行うことです。画像多様体の複雑さにより、Teacherモデルの元のサンプリング軌道は通常、曲がった曲線であり、その接線方向（すなわち速度場）は時間ステップとともに変化し続けます。

加速するため、既存の蒸留手法（Progressive Distillation、Instaflowなど）はこの軌道を1ステップの直線に圧縮しようと試みます。彼らの論理は：曲がった道を歩くのが遅いなら、学生モデルを訓練して出発点（ノイズ）と終点（画像）の間に直線を引けばいい。学生がこの直線を歩くことを学べば、推論は1ステップで済むはずだ。

この戦略は2つの致命的な問題をもたらします：

1. 幾何学的ミスマッチ（Geometric Mismatch）：Teacherモデルの元の重みは曲線軌道に基づいて訓練されています。学生モデルに無理に直線に適合させると、Teacherの元の生成事前分布を「裏切る」ことになります。この幾何学的な不一致により、学生モデルは学びにくくなるか、学んだものは構造崩壊を起こします。

2. 学習コストが高い：軌道を強引に扭转するため、学生モデルは全パラメータ微調整（Full Fine-tuning）を必要とすることが多いです。これは訓練が遅く、VRAMオーバーヘッドが大きく、かつ「壊滅的忘却」を引き起こしやすく、大モデルの優れた汎化能力を損ないます。

そのため、蒸留後のモデルは多くの場合、速度は速くなっても、生成品質が不安定で、複雑なプロンプトの理解能力が低下することがよく見られます。

強引に直線化せず、どうすれば速くできるのか？

二、洞察：速度場はランダムではなく、連続的である

ArcFlowチームはTeacherモデルの軌道を再検討し、ODEの理論的规律に従って、隣接する時間ステップ間のデノイズ速度方向は飛躍的に変化するのではなく、極めて強い相関性があることに気づきました。これは、レーシングカーがカーブを曲がる際、次の瞬間の方向と速度が、現在の状態と慣性に大きく依存するようなものです。Teacherモデルの軌道自体が連続的に変化するなら、なぜ我々はこの「変化の规律」を直接モデル化せず、無理に直線に変えようとするのでしょうか？

この「弯曲」した傾向を記述できるパラメータ化方法を見つけることができれば、学生モデルは軌道を直線化するのに苦労する必要はなく、Teacherのポテンシャルに従い、非常に少ないステップで終点に「滑り」込むことができます。

この核心的洞察に基づき、ArcFlowが生まれました。

三、 ArcFlowの三大杀手锏

1. モーメントパラメータ化（Momentum Parameterization）：生成プロセスに「慣性」を加える

上記の「速度連続性」を捉えるため、ArcFlowは物理学の古典的な「モーメント」（Momentum）概念を導入しました。

従来の方法では、モデルは各時間ステップで独立して速度を予測します。ArcFlowでは、速度場を複数の連続モーメントプロセスの混合としてモデル化します。簡単に言えば、モデルは現在の「速度」だけでなく、「モーメントファクター」（Momentum Factor）も予測します。このファクターは、速度が時間とともに減衰または増強する傾向を記述します。これは、物体の初速度と受力状況（モーメント）を知っていれば、中間過程を見ずに物理公式を通じてその将来の軌道が弯曲しているか直線的かを直接予測できるようなものです。

この設計により、ArcFlowは明示的に非線形軌道を構築できます。2〜4ステップという非常に少ないステップ数で、この非線形軌道は強引な直線よりもTeacherモデルの元のパスをより正確に一致させることができます。

2. 解析ソルバー（Analytic Solver）：数学的な「ゼロ誤差」

「モーメント公式」で速度の時間的進化规律を完璧に定義したなら、この軌道の積分は解析的です。

つまり、閉じた解（Closed-form Solution）を導出できます。

这意味着、ArcFlowは従来のソルバーのように離散ステップで軌道をapproximateする必要はありません。它只需要一次前向傅播，就能通过数学公式，精确无误地计算出任意时间间隔后的终端状态。

这种数学层面上的「零误差」积分，是 ArcFlow 能够实现高精度流匹配的关键。它消除了传统蒸馏方法中的离散化噪声，让生成的图像细节清晰。

3. 极简训练策略：<5% 参数的 LoRA 微调

これは最も開発者を興奮させる点です。

前記のように、従来の手法は軌道を「強引に直線化」するため、モデルの全パラメータを書き換える必要がありました。ArcFlowは「勢いを利用する」ことを選択し、その非線形軌道はTeacherモデルの事前学習分布に自然に適合します。

因此、ArcFlow不需要破坏教师模型原本的参数。实验证明，仅需通过 LoRA 微调不到 5% 的参数（主要是为了适应新的动量预测头），就能实现完美的轨迹对齐。

这种策略带来了两大红利：

训练收敛极快：相比 TwinFlow 等全量微调方法，ArcFlow 的收敛速度快了超过 4 倍。
保留教师先验：最大程度继承了 FLUX/Qwen 原本庞大的知识库，不像其他蒸馏模型那样容易出现崩坏或画质劣化。

四、实验数据

团队在 Qwen-Image-20B 和 FLUX.1-dev 这两个目前最强的开源模型上进行了验证。结果表明，ArcFlow 在速度、质量和效率上实现了的平衡。

1. 推理速度

从原始的 50-100 步迭代，直接压缩至 2 步（2 NFE）。在相同硬件上，实现了超过 40 倍加速。

2. 画质表现

在 Geneval、DPG-Bench 等基准测试中，ArcFlow 在 2 步设定下的 FID 和语义一致性得分大部分优于或持平目前的 SOTA 方法。

视觉对比：

从论文展示的效果图来看，在同样的 2 步推理下，其他线性蒸馏方法生成的图像容易出现背景模糊、物体结构扭曲（如折断 / 重影的剑、模糊的背景），尤其是在不同的初始噪声下，其他方法容易出现生成模式相似、多样性坍缩的情况。而 ArcFlow 生成的图像不仅清晰度高，而且保留了教师模型原本的丰富细节和画面多样性。

3. 训练效率

得益于更精准的轨迹拟合和 LoRA 策略，ArcFlow 的训练曲线令人赏心悦目。在相同迭代步数下，ArcFlow 的 FID 分数和画面质量大幅领先。对于没有大规模算力的实验室或个人开发者来说，这大大降低了复现和定制的门槛。

4. 更多效果展示

五、总结

ArcFlow は新しい少歩蒸留の解決アプローチを提案しました：「曲線を直線化する」蛮力よりも、元のモデルの特徴空間に従い、その複雑性をパラメータで記述する方が良い。モーメントパラメータ化と解析ソルバーを通じて、ArcFlowは不安定な敵対的目標関数と全パラメータ訓練を回避し、より速い収束速度とより効率的な蒸留プロセスを実現しました。これにより、将来の効率的生成モデル研究に大きな可能性を提供する方向性を示しました。

転載には本公众号の許可が必要です

投稿または報道依頼：liyazhou@jiqizhixin.com

高速で省エネ？わずか5%のパラメータで訓練が4倍速く！ArcFlowが「非線形」の魔法でFLUX/Qwen推論を40倍加速

関連記事

分享網址