何愷明團隊「擴散模型」新作:在「最後一公里」進行離散解碼

在圖像和影片生成領域,擴散模型已成為主流,但為何一碰上文字生成,它就容易出現亂碼、重複詞等問題?

因為文字本質上是離散的 token,而擴散模型更擅長處理連續數據。過去,為了將擴散模型用於文字生成,研究人員主要採用兩種方法:

1. 離散擴散語言模型:直接在離散 token 空間中定義擴散過程,例如用 MASK 遮蓋 token 再逐步還原,或者先把 token 擾動到接近均勻分布,再一步步修正。這種方法近幾年一直是主流,整體效果也較強。

2. 連續擴散語言模型:先將 token 映射成連續的嵌入向量,再在連續空間中完成去噪,最後再映射回離散 token。這條路線在理論上更自然,也更接近視覺擴散模型的做法,但實際效果長期落後於離散方法。

為解決這個問題,麻省理工學院副教授、Google DeepMind 傑出科學家何愷明團隊推出了「嵌入式語言流」(Embedded Language Flows,ELF),這是一類基於連續時間流匹配、在連續嵌入空間中運行的擴散模型。

與現有擴散語言模型不同,ELF 在絕大多數時間步內保持在連續嵌入空間中,僅在最終時間步透過共享權重網路映射至離散 token 上。這種形式使其能夠直接複用圖像擴散模型中的成熟技術。

Image

論文連結:https://arxiv.org/abs/2605.10938

研究結果表明,連續擴散語言模型即使只對離散化做最小處理,也完全可以具備很強的競爭力。ELF 在不使用蒸餾的情況下用更少的取樣步數取得了更低的生成困惑度,所需訓練 token 數量僅為以往方法的十分之一。

Image

圖|ELF 在不使用蒸餾的情況下,以更少的取樣步數實現了比以往 DLM 更低的生成困惑度。與此同時,ELF 的訓練 token 數量還減少了 10 倍。

先連續生成,再離散解碼

ELF 的核心做法,是先將離散 token 映射到連續嵌入空間,在這一空間中用連續時間的流匹配(Flow Matching)建模從高斯雜訊到乾淨嵌入的去噪軌跡;在最後一個時間步,模型會切換到解碼模式,將結果解碼回離散 token。

圖片

圖|ELF 的概念示意。橙色點表示在連續嵌入空間中的數據表示,紫色線條展示了從高斯雜訊到乾淨嵌入的去噪軌跡。離散化僅在最終時間步(t=1)透過共享權重網路完成。

在訓練階段,研究團隊使用預訓練的 T5 編碼器,把文字 token 轉成帶有上下文資訊的連續嵌入。每個嵌入對應一個 token,但它本身不是詞表中的具體詞,而是該 token 在上下文中的向量表示。隨後,ELF 在連續嵌入空間中建模去噪過程,在連續嵌入空間中建模從雜訊到乾淨嵌入的連續流動路徑。

推理階段,ELF 不再調用編碼器。模型在連續嵌入空間中逐步生成文字表示,並在最終時間步切換到解碼模式,透過共享權重網路和可學習的反嵌入矩陣輸出 token。

ELF 設計上的關鍵,是用一個網路同時承擔去噪和解碼兩個功能,並透過二元 mode token 進行區分。模型按 80% 和 20% 的比例分別進入去噪分支和解碼分支,對應使用 MSE 損失和交叉熵損失。

此外,研究團隊還引入了自條件機制。推理時,模型使用前一步預測作為下一步去噪的條件,而不會從零開始預測。這不僅提高了生成品質,還為 CFG 提供了現成的條件訊號來源,幾乎不帶來額外的計算負擔。

Image

圖|在訓練過程中,離散 token 會先被編碼為乾淨的嵌入 x,再被擾動為 z_t,ELF 再利用 z_t 預測 x̂。模型可採用兩種損失之一進行訓練:去噪損失 L_MSE,或逐 token 的交叉熵損失 L_CE。在推理過程中,ELF 從高斯雜訊 z_0 出發,迭代地將嵌入從 z_t 去噪到 z_{t+1}。只有在最後一步,ELF 才會切換到解碼模式,透過反嵌入層將最終的嵌入投影回離散 token。

更少取樣步數,更低訓練預算

研究團隊將 ELF 放到三類任務裡測試:在 OpenWebText(OWT)上測試無條件文字生成,在 WMT14 德譯英任務上測試機器翻譯,在 XSum 上測試新聞摘要。

在無條件生成上,ELF-B 的主體模型規模為 105M。在 OWT 系統層面對比中,在不使用額外蒸餾的情況下,ELF-B 僅用 32 個取樣步就把生成困惑度降到了 24,優於其他納入比較的離散和連續擴散語言模型基線。在訓練預算上,ELF 使用約 45.2B 有效訓練 token,相比之下,MDLM、Duo、LangFlow 等基線約為 524.3B,蒸餾版 MDLM+SDTT 和 Duo+DCD 為 550.5B,FMLM 為 576.7B。

Image

圖|系統層面對比。ELF-B 在相近實驗設定下優於離散型和連續型擴散語言模型(a);面對那些需要額外蒸餾訓練的基線模型,也展現出可比競爭力(b);與此同時,它使用的訓練 token 明顯更少(c)。

在條件生成上,ELF-B 在 WMT14 德譯英任務上達到 BLEU 26.4;在 XSum 摘要任務上,ROUGE-1/ROUGE-L 分別達到 36.0、12.2、27.8。與相近規模的自迴歸模型和擴散語言模型相比,ELF-B 在兩個任務上都取得最高結果。

Image

圖|機器翻譯和摘要任務結果。研究團隊在 WMT14 德英(De-En)翻譯和 XSum 摘要任務上評估 ELF-B,並將其與參數規模相近的基線模型進行比較。† 表示結果直接取自既有工作,也是 De-En 任務的預設結果來源;‡ 表示研究團隊使用公開程式碼庫重現得到的結果,也是 XSum 任務的預設結果來源。對於 XSum,在可獲得時,研究團隊還報告了不同評估樣本上的標準誤。ELF 在兩個任務設定中都取得了最佳效能。

其次,消融實驗顯示,用預訓練編碼器得到的上下文嵌入,比普通 token 嵌入和可學習嵌入表現更好。共享權重的去噪器-解碼器與單獨訓練解碼器效果接近,但流程更簡單。取樣方式上,受 SDE 啟發的取樣器在少步生成時優於 ODE 取樣器。研究團隊指出,模型從 105M 擴展到 342M 和 652M 後,在相近多樣性下生成困惑度更低;在相近生成困惑度下,文字多樣性更高。

Image

圖|關鍵設計選擇的消融實驗。

不足與未來方向

研究團隊指出,目前 ELF 模型仍有侷限,主要有以下幾點:

1. 模型規模仍然有限

當前評估模型的規模主要是 105M、342M 和 652M,沒有將 ELF 與 GPT-4、Claude、Llama 等大規模指令模型正面對比。因此,ELF 證明的是同類擴散語言模型中的競爭力,不是對主流自迴歸大模型的整體替代。

2. 任務範圍仍然有限

在研究實驗中,OpenWebText 上的 generative perplexity 是代理指標,不能直接代表真實使用者偏好。WMT14 和 XSum 能說明翻譯與摘要表現,但不能涵蓋複雜推理、長上下文對話、程式碼生成和多輪互動。

3. 連續空間依賴預訓練編碼器

研究團隊測試了從零訓練的編碼器和非上下文 embedding,但預訓練上下文 embedding 仍然表現最好。這個結果說明,ELF 的效果部分來自既有預訓練編碼器,而不是完全從零學出連續語言空間。

4. 真實部署成本還沒有被驗證

研究團隊報告了取樣步數、訓練 token 預算和自動指標,沒有報告真實服務中的端到端延遲、吞吐量或顯存成本,也沒有和成熟自迴歸模型的部署方案直接比較。因此,ELF 模型是否更省取樣步和訓練 token,還需要在真實部署中驗證。

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.