何愷明團隊首個語言模型亮相！105M參數、45B訓練token，連續擴散路線正面擊敗主流離散DLM

何愷明團隊帶來全新力作——語言模型。

這次他帶隊做的，並非大家所熟悉、像ChatGPT背後那套「預測下一個詞元」（next token prediction）的自迴歸範式。

而是另一條過去幾年在圖像領域大紅大紫、如今正被越來越多人搬進文字生成的新路線：擴散語言模型（Diffusion Language Model，DLM）。

在最新的論文中，何愷明團隊釋出全新連續擴散語言模型：ELF：Embedded Language Flows。

與不少還停留在token層面做擴散的語言模型不同，ELF把整個生成過程都留在了連續的embedding空間裡，直到最後一步，才重新離散化，將表示變回token。

靠著這套設計，ELF只用了1.05億參數、450億訓練token、32步採樣，就從正面擊敗了一票主流擴散語言模型。

最直觀的一項指標是它在OpenWebText上，把生成困惑度（Generative Perplexity）直接壓到了24。

這裡簡單科普一下生成困惑度，它本質上是讓一個強大的語言模型，給生成結果「檢查作業」，看看這些文本到底像不像真實人類寫出來的語料——

值越低，說明生成品質越高、模型產出的東西也就越沒AI味，越自然。

在與主流擴散語言模型的對比中，ELF在訓練token少近10倍、採樣步數更少的情況下，反而拿到了更低的生成困惑度。

可以說，在過去很長一段時間裡，擴散語言模型的進展，幾乎都發生在離散DLM（Discrete DLM）這一側。

而ELF第一次證明了一件事：連續的方法，不但能跑，而且效果卓越。

ELF到底做了什麼

要理解ELF，先得理解擴散語言模型現在到底在做什麼。

擴散語言模型，主要有兩種技術路線。

一是以MDLM、Duo為代表的離散派，直接在token空間做擴散，每一步處理的是離散隨機變數。
二是包括Diffusion-LM、CDCD、DiffuSeq在內的連續派，把token映射成連續embedding，在連續空間裡去噪。

此前的研究中，像MDLM、LLaDA、Dream 7B這些離散路線佔據了上風。原因很簡單，因為語言本身就是離散的。

對於這一看似常識的理解，何愷明團隊給出的判斷恰恰相反——

問題可能不是「語言必須離散」，問題可能是：前人根本沒有讓連續路線，連續到底。

Diffusion-LM這一類的方法雖然在embedding空間去噪，但每一步都要算一次 token-level 的交叉熵，把連續軌跡一路綁在詞表上。

後來的LD4LG、Cosmos走潛在擴散（latent diffusion）路線，去噪過程是連續了，但要單獨訓練一個解碼器（decoder）把潛在表徵解回token，相當於多一個模組。

基於此，ELF把所有去噪，全留在連續嵌入空間（continuous embedding space）；直到最後一步 t=1，才重新投射回token。

具體來說，ELF在訓練時，離散token先被編碼成連續embedding，再加噪成 z_t，模型要麼負責把它還原成乾淨embedding（均方誤差MSE），要麼直接預測 token（交叉熵CE）。

推理時，模型從高斯雜訊 z_0 出發，一路在連續空間裡去噪，直到最後一步，才切換到解碼模式，把 embedding 重新投射回 token。

ELF第一次把「連續表示」和「離散輸出」這兩個過去總被認為必須反覆對齊的問題，徹底拆開了：

中間的去噪，完全交給連續空間；最終的語言生成，只留到最後一步離散化。

沒有每一步都往詞表上硬對齊，也不需要額外訓練一個解碼器（decoder），整個生成流程第一次真正做到了：

連續就是連續，離散就是離散。

而這，恰恰也是ELF後面能用更少採樣步數、更少訓練token，卻跑贏一眾擴散語言模型的關鍵。

ELF不是「先擴散，再解碼」

在具體的實現上，ELF還解決了三個問題：

token怎麼變連續？連續裡怎麼去噪？最後又怎麼變回token？

1. 把token變成連續embedding

要把連續擴散用在語言上，第一步，得先把離散的token變成連續表示。

論文中，ELF先把它切成token序列，再映射到連續embedding空間。這裡具體怎麼映射，其實有多種選擇。

預設情況下，ELF用的是T5預訓練編碼器（encoder），生成雙向的上下文嵌入（contextual embedding）。論文後面也測試了聯合訓練嵌入（jointly trained embedding）和隨機嵌入等不同方案。

值得注意的是，這個編碼器只在訓練階段使用，推理時並不會額外增加模組。

2. 在連續embedding空間裡做流匹配（Flow Matching）

拿到連續表示之後，ELF就在embedding空間裡做流匹配。簡單說，流匹配定義了一條從雜訊到真實數據的連續流動軌跡：

t=0時，是高斯雜訊；
t=1時，是乾淨的embedding；
中間所有狀態，都是兩者的線性插值，也就是論文裡的整流流（rectified flow）。

在傳統流匹配中，網路通常直接預測「速度場」v。但ELF沒有這麼做，而是沿用了何愷明團隊半年前在《Back to Basics: Let Denoising Generative Models Denoise》裡提出的思路——

直接預測乾淨embedding x，也就是x-prediction。

訓練目標，就是最小化預測嵌入和真實嵌入之間的均方誤差（MSE）。

至於為什麼採用x-prediction，論文給了兩個原因：

第一，它在高維表示上更穩定——比如768維甚至更高的token embedding；
第二，它天然和最後一步「預測乾淨token」的目標對齊。

論文還特別提到：雖然理論上也可以先預測速度v，再換算成x，但這樣一來，後面去噪（denoising）和解碼（decoding）之間的權重共享就很難成立。

實驗上，他們也發現：一旦共享權重，v-prediction效果明顯變差。

3. 從連續embedding，再回到離散token

生成語言，最終輸出還是離散token。

所以ELF只在最後一個時間步（t = 1），還得把連續embedding重新投射回token空間。不過，這一步ELF沒有像很多潛在擴散（latent diffusion）方法那樣，額外訓練一個解碼器（decoder）。相反，它把最後一步直接視作：

一次連續到離散的解碼（continuous-to-discrete decoding）。

換句話說：解碼器和前面的去噪器，其實是同一個網路。

為了讓最後一步訓練不至於太簡單（因為理論上t→1時，輸入已經非常接近乾淨embedding），ELF在最後一步額外加入了一次token層級的破壞（token-level corruption），構造出一個帶擾動的輸入。

隨後，同一個網路輸出乾淨嵌入，再通過一個可學習的非嵌入矩陣（unembedding matrix）W，投射成token分數（logits）。

訓練目標，則是標準的token層級交叉熵損失（cross-entropy loss）。整個網路共享同一套參數，並額外接收一個二值的模式token：去噪模式／解碼模式。

推理時，ELF從高斯雜訊開始一路在連續空間裡去噪，直到最後一步 t = 1，才切換到解碼模式，再通過argmax輸出最終token。

值得一提的是，在ELF中，圖像生成裡最常用的技術之一，無分類器引導（CFG, classifier-free guidance）也被搬過來了。

ELF用自我條件化（self-conditioning）作為條件訊號，套上訓練時CFG（一次前向傳播模擬兩次推理，沒有推理開銷），把圖像那邊的方案直接搬了過來。

實驗對比

實驗部分，ELF基本回答了一個過去兩年一直懸著的問題：

連續擴散語言模型，到底能不能打？答案是：不但能打，而且第一次在品質、速度、訓練成本三個維度同時勝出。

如開頭所說，在OpenWebText生成任務中，在不做蒸餾（distillation）的情況下，ELF只用32步採樣，就把生成困惑度壓到了24。

而此前主流的離散擴散模型，往往要跑到1024步，才能接近這個水準。

更誇張的是，ELF實現這一結果時，訓練token只用了450億。

而同級別對手，普遍是5000億以上。換句話說：採樣步數少了一個數量級，訓練數據也少了一個數量級，效果反而更好。

而在很多擴散模型最容易掉隊的條件生成任務上，ELF也沒掉鏈子。

無論是WMT14機器翻譯，還是XSum文本摘要，ELF都穩定超越現有擴散語言模型，甚至把不少自迴歸基線（baseline）也壓了下去。

論文最後給出的總結其實很克制：ELF在生成品質、採樣效率和訓練成本之間，實現了極佳的權衡（trade-off）。

翻成白話就是：連續派，不是不能打。只是以前沒把連續這件事做到底。

作者介紹

最後，我們再來介紹一下這篇文章的作者。這篇論文的兩位第一作者是共同貢獻。

胡珂雅，她是這篇文章的兩位第一作者之一，MIT EECS一年級博士生，也是愷明在MIT帶的第一批博士生之一，目前由何愷明和Jacob Andreas聯合指導。

圖源：胡珂雅個人主頁

她大學畢業於上海交大的ACM班，目前的研究興趣主要是語言和視覺的交叉領域，致力於構建資料效率更高、泛化能力更強的智慧體。

值得一提的是，在愷明MIT的主頁中，胡珂雅排在研究生（Grad students）第一位，可以說是組內的大師姐了。

第二位第一作者Linlu Qiu，同樣是MIT的博士生，師從Yoon Kim。

圖源：Linlu Qiu個人主頁

她大學畢業於香港大學，碩士畢業於喬治亞理工學院（Georgia Institute of Technology），此前還在Google做過AI Resident。

有意思的是，這並不是她第一次和愷明合作。就在不久前，她還和愷明團隊一起拿下了CVPR 2026論文《ARC Is a Vision Problem!》，把ARC推理問題重新定義成了視覺問題。

另一位作者Hanhong Zhao（趙瀚宏）為MIT大學部學生，他高中就讀於人大附中，曾是國際物理奧林匹亞競賽（IPhO）金牌得主。

圖源：math.mit.edu

還有一位作者陸伊煬，背景有點「少年班味道」。

圖源：陸伊煬個人主頁

他是清華大學姚班大二學生，目前在MIT電腦科學與人工智慧實驗室（CSAIL）實習，導師是何愷明，主要研究方向為電腦視覺和深度生成模型。

高中時期，他是物理競賽生，曾以江蘇選手中第一名、全中國第九名的成績，在2022年獲得了第三十九屆全國中學生物理競賽（CPhO）金牌。

此前，他以第一作者身分與愷明合作過論文《Bidirectional Normalizing Flow: From Data to Noise and Back》。

另一位核心作者黎天鴻，則是愷明組的博士後研究員。

圖源：黎天鴻個人主頁

他大學就讀於清華大學姚班，博士畢業於MIT，半年前那篇《Back to Basics: Let Denoising Generative Models Denoise》的第一作者，就是他。

此外，論文的其他作者Yoon Kim、Jacob Andreas，MIT EECS兩位語言模型領域的教授，以及何愷明本人。

參考連結

https://arxiv.org/pdf/2605.10938