又快又省？僅用 5% 參數、訓練快 4 倍！ArcFlow 以「非線性」魔法實現 FLUX/Qwen 推理40倍加速

在生成式 AI 的浪潮中，我們見證了從 Stable Diffusion 到 FLUX、Qwen-Image 等大規模擴散模型的畫質飛躍。然而，這種飛躍並非沒有代價。為了從純雜訊中「雕刻」出清晰的圖像，這些模型通常需要進行 40 到 100 步（NFE）的反覆去噪。這種延遲使得模型很難真正應用於實際的即時生成或大規模服務。

於是，「少步生成」成為了必爭之地。對於原本教師模型曲曲折折的生成軌跡，目前的少步加速方案（如 Progressive Distillation, Distribution Matching 等）都在試圖做同一件事：把彎路拉直，一步到達終點。

然而，原本高維空間的生成軌跡極其複雜，強行「拉直」會導致軌跡上的幾何失配。這直接導致了少步生成時的結構崩壞和細節遺失。

有沒有一種方法，既能快，又能順應原本蜿蜒的生成軌跡？

復旦大學與微軟亞洲研究院帶來的 ArcFlow 給出了答案：如果路是彎的，那就學會「漂移」，而不是把路修直。

論文地址：https://arxiv.org/abs/2602.09014
項目程式碼：https://github.com/pnotp/ArcFlow

一、困境：為什麼「走直線」難以學習？

在擴散模型中，教師模型的生成過程本質上是在高維空間中求解微分方程式並進行多步積分。由於圖像流形的複雜性，教師模型原本的採樣軌跡通常是一條蜿蜒的曲線，其切線方向（即速度場）隨時序不斷變化。

為了加速，現有的蒸方法（如 Progressive Distillation, Instaflow 等）試圖將這個軌跡壓縮成一步直線抵達。它們的邏輯是：既然走曲線慢，那就訓練學生模型，把起點（雜訊）和終點（圖像）之間連成一條直線。如果學生能學會走這條直線，那推理不就只需要一步了嗎？

這種策略帶來了兩個致命問題：

1. 幾何失配： 教師模型原本的權重是基於曲線軌跡訓練出來的。強行讓學生模型去擬合一條直線，相當於讓它「背叛」教師原本的生成先驗。這種幾何上的不匹配，導致學生模型很難學，或者學出來的東西結構崩壞。

2. 學習成本高： 為了強行扭轉軌跡，學生模型往往需要進行全參數微調。這不僅訓練慢、顯存開銷大，而且容易導致「災難性遺忘」，破壞大模型原本優秀的泛化能力。

所以我們經常看到：很多蒸後的模型，雖然速度快了，但生成品質不穩定，甚至對複雜的 Prompt 理解能力下降。

如果不強制拉直，我們還能怎麼快起來？

二、洞察：速度場不是隨機的，它是連續的

ArcFlow 團隊重新審視了教師模型的軌跡，根據 ODE 的理論規律，在相鄰的時間步之間，去噪的速度方向並不是跳躍式變化的，而是存在極強的相关性。這就像一輛賽車在過彎道，下一秒的方向和速度，很大程度上取決於當前秒的狀態和慣性。既然教師模型的軌跡本身就是連續變化的，為什麼我們不直接去建模這種「變化規律」，而不是強行把它改成直線呢？

如果我們能找出一種參數化方法，能夠描述這種「彎曲」的趨勢，那麼學生模型就不需要費力去把路拉直，而是可以順著教師的勢能，用極少的步數「滑」向終點。

基於這個核心洞察，ArcFlow 誕生了。

三、 ArcFlow 的三大殺手鐧

1. 動量參數化：給生成過程加個「慣性」

為了捕捉上述的「速度連續性」，ArcFlow 引入了物理學中經典的「動量」概念。

在傳統方法中，模型在每個時間步獨立預測速度。而在 ArcFlow 中，我們將速度場建模為多個連續動量過程的混合。通俗來說，模型不僅預測當前的「速度」，還預測了一個「動量因子」。這個因子描述了速度隨時間衰減或增強的趨勢。這就好比我們知道了物體的初速度和受力情況（動量），哪怕不看中間過程，我們也能通過物理公式直接預判它未來的軌跡是彎曲的還是筆直的。

這一設計讓 ArcFlow 能夠顯式地構建非線性軌跡。在 2-4 步的極少步數下，這種非線性軌跡比生硬的直線能更精確地貼合教師模型的原始路徑。

2. 解析求解器：數學層面的「零誤差」

既然已經用「動量公式」完美定義了速度隨時間的演變規律，那麼這條軌跡的積分就是可解析的。

也就是說，我們可以推導出一個閉式解。

這意味著，ArcFlow 不需要像傳統求解器那樣通過離散步去擬合軌跡。它只需要一次前向傳播，就能通過數學公式，精確無誤地計算出任意時間間隔後的終端狀態。

這種數學層面上的「零誤差」積分，是 ArcFlow 能夠實現高精度流匹配的關鍵。它消除了傳統蒸方法中的離散化雜訊，讓生成的圖像細節清晰。

3. 極簡訓練策略：<5% 參數的 LoRA 微調

這是最讓開發者興奮的一點。

正如前文所說，傳統方法因為要「強行拉直」軌跡，不得不重寫整個模型的參數。而 ArcFlow 選擇「順勢而為」，它的非線性軌跡天然契合教師模型的預訓練分佈。

因此，ArcFlow 不需要破壞教師模型原本的參數。實驗證明，僅需透過 LoRA 微調不到 5% 的參數（主要是為了適應新的動量預測頭），就能實現完美的軌跡對齊。

這種策略帶來了兩大紅利：

訓練收斂極快：相比 TwinFlow 等全量微調方法，ArcFlow 的收斂速度快了超過 4 倍。
保留教師先驗：最大程度繼承了 FLUX/Qwen 原本龐大的知識庫，不像其他蒸模型那樣容易出現崩壞或畫質劣化。

四、實驗數據

團隊在 Qwen-Image-20B 和 FLUX.1-dev 這兩個目前最強的開源模型上進行了驗證。结果表明，ArcFlow 在速度、質量和效率上實現了平衡。

1. 推理速度

從原始的 50-100 步反覆，直接壓縮至 2 步（2 NFE）。在相同硬體上，實現了超過 40 倍加速。

2. 畫質表現

在 Geneval、DPG-Bench 等基準測試中，ArcFlow 在 2 步設定下的 FID 和語義一致性得分大部分優於或持平目前 SOTA 方法。

視覺對比：

從論文展示的效果圖來看，在同樣的 2 步推理下，其他線性蒸方法生成的圖像容易出現背景模糊、物體結構扭曲（如折斷/重影的劍、模糊的背景），尤其是在不同的初始雜訊下，其他方法容易出現生成模式相似、多樣性坍縮的情況。而 ArcFlow 生成的圖像不僅清晰度高，而且保留了教師模型原本的豐富細節和畫面多樣性。

3. 訓練效率

得益於更精準的軌跡擬合和 LoRA 策略，ArcFlow 的訓練曲線令人賞心悅目。在相同反覆步數下，ArcFlow 的 FID 分數和畫面品質大幅領先。對於沒有大規模算力的實驗室或個人開發者來說，這大大降低了重現和定制的門檻。

4. 更多效果展示

五、總結

ArcFlow 提出了一種新的少步蒸的解決思路：與其「把曲線拉直」的「蠻力」，不如順應原本的模型特徵空間，用參數去描述其複雜性。透過動量參數化和解析求解器，ArcFlow 避免了不穩定的對抗性目標函數和全參數訓練，從而實現了更快的收斂速度和更高效的蒸過程。這為未來的高效生成模型研究提供了一個極具潛力的方向。

轉載請聯繫本公眾號獲得授權

投稿或尋求報導：liyazhou@jiqizhixin.com

又快又省？僅用 5% 參數、訓練快 4 倍！ArcFlow 以「非線性」魔法實現 FLUX/Qwen 推理40倍加速

相關文章推薦

分享網址