在圖像和影片生成領域，擴散模型已成為主流，但為何一碰上文字生成，它就容易出現亂碼、重複詞等問題？

因為文字本質上是離散的 token，而擴散模型更擅長處理連續數據。過去，為了將擴散模型用於文字生成，研究人員主要採用兩種方法：

1. 離散擴散語言模型：直接在離散 token 空間中定義擴散過程，例如用 MASK 遮蓋 token 再逐步還原，或者先把 token 擾動到接近均勻分布，再一步步修正。這種方法近幾年一直是主流，整體效果也較強。

2. 連續擴散語言模型：先將 token 映射成連續的嵌入向量，再在連續空間中完成去噪，最後再映射回離散 token。這條路線在理論上更自然，也更接近視覺擴散模型的做法，但實際效果長期落後於離散方法。

為解決這個問題，麻省理工學院副教授、Google DeepMind 傑出科學家何愷明團隊推出了「嵌入式語言流」（Embedded Language Flows，ELF），這是一類基於連續時間流匹配、在連續嵌入空間中運行的擴散模型。

與現有擴散語言模型不同，ELF 在絕大多數時間步內保持在連續嵌入空間中，僅在最終時間步透過共享權重網路映射至離散 token 上。這種形式使其能夠直接複用圖像擴散模型中的成熟技術。

論文連結：https://arxiv.org/abs/2605.10938

研究結果表明，連續擴散語言模型即使只對離散化做最小處理，也完全可以具備很強的競爭力。ELF 在不使用蒸餾的情況下用更少的取樣步數取得了更低的生成困惑度，所需訓練 token 數量僅為以往方法的十分之一。

圖｜ELF 在不使用蒸餾的情況下，以更少的取樣步數實現了比以往 DLM 更低的生成困惑度。與此同時，ELF 的訓練 token 數量還減少了 10 倍。

先連續生成，再離散解碼

ELF 的核心做法，是先將離散 token 映射到連續嵌入空間，在這一空間中用連續時間的流匹配（Flow Matching）建模從高斯雜訊到乾淨嵌入的去噪軌跡；在最後一個時間步，模型會切換到解碼模式，將結果解碼回離散 token。

圖｜ELF 的概念示意。橙色點表示在連續嵌入空間中的數據表示，紫色線條展示了從高斯雜訊到乾淨嵌入的去噪軌跡。離散化僅在最終時間步（t=1）透過共享權重網路完成。

在訓練階段，研究團隊使用預訓練的 T5 編碼器，把文字 token 轉成帶有上下文資訊的連續嵌入。每個嵌入對應一個 token，但它本身不是詞表中的具體詞，而是該 token 在上下文中的向量表示。隨後，ELF 在連續嵌入空間中建模去噪過程，在連續嵌入空間中建模從雜訊到乾淨嵌入的連續流動路徑。

推理階段，ELF 不再調用編碼器。模型在連續嵌入空間中逐步生成文字表示，並在最終時間步切換到解碼模式，透過共享權重網路和可學習的反嵌入矩陣輸出 token。

ELF 設計上的關鍵，是用一個網路同時承擔去噪和解碼兩個功能，並透過二元 mode token 進行區分。模型按 80% 和 20% 的比例分別進入去噪分支和解碼分支，對應使用 MSE 損失和交叉熵損失。

此外，研究團隊還引入了自條件機制。推理時，模型使用前一步預測作為下一步去噪的條件，而不會從零開始預測。這不僅提高了生成品質，還為 CFG 提供了現成的條件訊號來源，幾乎不帶來額外的計算負擔。

圖｜在訓練過程中，離散 token 會先被編碼為乾淨的嵌入 x，再被擾動為 z_t，ELF 再利用 z_t 預測 x̂。模型可採用兩種損失之一進行訓練：去噪損失 L_MSE，或逐 token 的交叉熵損失 L_CE。在推理過程中，ELF 從高斯雜訊 z_0 出發，迭代地將嵌入從 z_t 去噪到 z_{t+1}。只有在最後一步，ELF 才會切換到解碼模式，透過反嵌入層將最終的嵌入投影回離散 token。

更少取樣步數，更低訓練預算

研究團隊將 ELF 放到三類任務裡測試：在 OpenWebText（OWT）上測試無條件文字生成，在 WMT14 德譯英任務上測試機器翻譯，在 XSum 上測試新聞摘要。

在無條件生成上，ELF-B 的主體模型規模為 105M。在 OWT 系統層面對比中，在不使用額外蒸餾的情況下，ELF-B 僅用 32 個取樣步就把生成困惑度降到了 24，優於其他納入比較的離散和連續擴散語言模型基線。在訓練預算上，ELF 使用約 45.2B 有效訓練 token，相比之下，MDLM、Duo、LangFlow 等基線約為 524.3B，蒸餾版 MDLM+SDTT 和 Duo+DCD 為 550.5B，FMLM 為 576.7B。

圖｜系統層面對比。ELF-B 在相近實驗設定下優於離散型和連續型擴散語言模型（a）；面對那些需要額外蒸餾訓練的基線模型，也展現出可比競爭力（b）；與此同時，它使用的訓練 token 明顯更少（c）。

在條件生成上，ELF-B 在 WMT14 德譯英任務上達到 BLEU 26.4；在 XSum 摘要任務上，ROUGE-1/ROUGE-L 分別達到 36.0、12.2、27.8。與相近規模的自迴歸模型和擴散語言模型相比，ELF-B 在兩個任務上都取得最高結果。

圖｜機器翻譯和摘要任務結果。研究團隊在 WMT14 德英（De-En）翻譯和 XSum 摘要任務上評估 ELF-B，並將其與參數規模相近的基線模型進行比較。† 表示結果直接取自既有工作，也是 De-En 任務的預設結果來源；‡ 表示研究團隊使用公開程式碼庫重現得到的結果，也是 XSum 任務的預設結果來源。對於 XSum，在可獲得時，研究團隊還報告了不同評估樣本上的標準誤。ELF 在兩個任務設定中都取得了最佳效能。

其次，消融實驗顯示，用預訓練編碼器得到的上下文嵌入，比普通 token 嵌入和可學習嵌入表現更好。共享權重的去噪器-解碼器與單獨訓練解碼器效果接近，但流程更簡單。取樣方式上，受 SDE 啟發的取樣器在少步生成時優於 ODE 取樣器。研究團隊指出，模型從 105M 擴展到 342M 和 652M 後，在相近多樣性下生成困惑度更低；在相近生成困惑度下，文字多樣性更高。

圖｜關鍵設計選擇的消融實驗。

不足與未來方向

研究團隊指出，目前 ELF 模型仍有侷限，主要有以下幾點：

1. 模型規模仍然有限

當前評估模型的規模主要是 105M、342M 和 652M，沒有將 ELF 與 GPT-4、Claude、Llama 等大規模指令模型正面對比。因此，ELF 證明的是同類擴散語言模型中的競爭力，不是對主流自迴歸大模型的整體替代。

2. 任務範圍仍然有限

在研究實驗中，OpenWebText 上的 generative perplexity 是代理指標，不能直接代表真實使用者偏好。WMT14 和 XSum 能說明翻譯與摘要表現，但不能涵蓋複雜推理、長上下文對話、程式碼生成和多輪互動。

3. 連續空間依賴預訓練編碼器

研究團隊測試了從零訓練的編碼器和非上下文 embedding，但預訓練上下文 embedding 仍然表現最好。這個結果說明，ELF 的效果部分來自既有預訓練編碼器，而不是完全從零學出連續語言空間。

4. 真實部署成本還沒有被驗證

研究團隊報告了取樣步數、訓練 token 預算和自動指標，沒有報告真實服務中的端到端延遲、吞吐量或顯存成本，也沒有和成熟自迴歸模型的部署方案直接比較。因此，ELF 模型是否更省取樣步和訓練 token，還需要在真實部署中驗證。

何愷明團隊「擴散模型」新作：在「最後一公里」進行離散解碼

先連續生成，再離散解碼

更少取樣步數，更低訓練預算

不足與未來方向

相關文章推薦

分享網址