何愷明團隊帶來全新力作——語言模型。
這次他帶隊做的,並非大家所熟悉、像ChatGPT背後那套「預測下一個詞元」(next token prediction)的自迴歸範式。
而是另一條過去幾年在圖像領域大紅大紫、如今正被越來越多人搬進文字生成的新路線:擴散語言模型(Diffusion Language Model,DLM)。
在最新的論文中,何愷明團隊釋出全新連續擴散語言模型:ELF:Embedded Language Flows。
與不少還停留在token層面做擴散的語言模型不同,ELF把整個生成過程都留在了連續的embedding空間裡,直到最後一步,才重新離散化,將表示變回token。
靠著這套設計,ELF只用了1.05億參數、450億訓練token、32步採樣,就從正面擊敗了一票主流擴散語言模型。
最直觀的一項指標是它在OpenWebText上,把生成困惑度(Generative Perplexity)直接壓到了24。
這裡簡單科普一下生成困惑度,它本質上是讓一個強大的語言模型,給生成結果「檢查作業」,看看這些文本到底像不像真實人類寫出來的語料——
值越低,說明生成品質越高、模型產出的東西也就越沒AI味,越自然。
在與主流擴散語言模型的對比中,ELF在訓練token少近10倍、採樣步數更少的情況下,反而拿到了更低的生成困惑度。
可以說,在過去很長一段時間裡,擴散語言模型的進展,幾乎都發生在離散DLM(Discrete DLM)這一側。
而ELF第一次證明了一件事:連續的方法,不但能跑,而且效果卓越。
ELF到底做了什麼
要理解ELF,先得理解擴散語言模型現在到底在做什麼。
擴散語言模型,主要有兩種技術路線。
- 一是以MDLM、Duo為代表的離散派,直接在token空間做擴散,每一步處理的是離散隨機變數。
- 二是包括Diffusion-LM、CDCD、DiffuSeq在內的連續派,把token映射成連續embedding,在連續空間裡去噪。
此前的研究中,像MDLM、LLaDA、Dream 7B這些離散路線佔據了上風。原因很簡單,因為語言本身就是離散的。
對於這一看似常識的理解,何愷明團隊給出的判斷恰恰相反——
問題可能不是「語言必須離散」,問題可能是:前人根本沒有讓連續路線,連續到底。
Diffusion-LM這一類的方法雖然在embedding空間去噪,但每一步都要算一次 token-level 的交叉熵,把連續軌跡一路綁在詞表上。
後來的LD4LG、Cosmos走潛在擴散(latent diffusion)路線,去噪過程是連續了,但要單獨訓練一個解碼器(decoder)把潛在表徵解回token,相當於多一個模組。
基於此,ELF把所有去噪,全留在連續嵌入空間(continuous embedding space);直到最後一步 t=1,才重新投射回token。
具體來說,ELF在訓練時,離散token先被編碼成連續embedding,再加噪成 z_t,模型要麼負責把它還原成乾淨embedding(均方誤差MSE),要麼直接預測 token(交叉熵CE)。
推理時,模型從高斯雜訊 z_0 出發,一路在連續空間裡去噪,直到最後一步,才切換到解碼模式,把 embedding 重新投射回 token。
ELF第一次把「連續表示」和「離散輸出」這兩個過去總被認為必須反覆對齊的問題,徹底拆開了:
中間的去噪,完全交給連續空間;最終的語言生成,只留到最後一步離散化。
沒有每一步都往詞表上硬對齊,也不需要額外訓練一個解碼器(decoder),整個生成流程第一次真正做到了:
連續就是連續,離散就是離散。
而這,恰恰也是ELF後面能用更少採樣步數、更少訓練token,卻跑贏一眾擴散語言模型的關鍵。
ELF不是「先擴散,再解碼」
在具體的實現上,ELF還解決了三個問題:
token怎麼變連續?連續裡怎麼去噪?最後又怎麼變回token?
1. 把token變成連續embedding
要把連續擴散用在語言上,第一步,得先把離散的token變成連續表示。
論文中,ELF先把它切成token序列,再映射到連續embedding空間。這裡具體怎麼映射,其實有多種選擇。
預設情況下,ELF用的是T5預訓練編碼器(encoder),生成雙向的上下文嵌入(contextual embedding)。論文後面也測試了聯合訓練嵌入(jointly trained embedding)和隨機嵌入等不同方案。
值得注意的是,這個編碼器只在訓練階段使用,推理時並不會額外增加模組。
2. 在連續embedding空間裡做流匹配(Flow Matching)
拿到連續表示之後,ELF就在embedding空間裡做流匹配。簡單說,流匹配定義了一條從雜訊到真實數據的連續流動軌跡:
- t=0時,是高斯雜訊;
- t=1時,是乾淨的embedding;
- 中間所有狀態,都是兩者的線性插值,也就是論文裡的整流流(rectified flow)。
在傳統流匹配中,網路通常直接預測「速度場」v。但ELF沒有這麼做,而是沿用了何愷明團隊半年前在《Back to Basics: Let Denoising Generative Models Denoise》裡提出的思路——
直接預測乾淨embedding x,也就是x-prediction。
訓練目標,就是最小化預測嵌入和真實嵌入之間的均方誤差(MSE)。
至於為什麼採用x-prediction,論文給了兩個原因:
- 第一,它在高維表示上更穩定——比如768維甚至更高的token embedding;
- 第二,它天然和最後一步「預測乾淨token」的目標對齊。
論文還特別提到:雖然理論上也可以先預測速度v,再換算成x,但這樣一來,後面去噪(denoising)和解碼(decoding)之間的權重共享就很難成立。
實驗上,他們也發現:一旦共享權重,v-prediction效果明顯變差。
3. 從連續embedding,再回到離散token
生成語言,最終輸出還是離散token。
所以ELF只在最後一個時間步(t = 1),還得把連續embedding重新投射回token空間。不過,這一步ELF沒有像很多潛在擴散(latent diffusion)方法那樣,額外訓練一個解碼器(decoder)。相反,它把最後一步直接視作:
一次連續到離散的解碼(continuous-to-discrete decoding)。
換句話說:解碼器和前面的去噪器,其實是同一個網路。
為了讓最後一步訓練不至於太簡單(因為理論上t→1時,輸入已經非常接近乾淨embedding),ELF在最後一步額外加入了一次token層級的破壞(token-level corruption),構造出一個帶擾動的輸入。
隨後,同一個網路輸出乾淨嵌入,再通過一個可學習的非嵌入矩陣(unembedding matrix)W,投射成token分數(logits)。
訓練目標,則是標準的token層級交叉熵損失(cross-entropy loss)。整個網路共享同一套參數,並額外接收一個二值的模式token:去噪模式/解碼模式。
推理時,ELF從高斯雜訊開始一路在連續空間裡去噪,直到最後一步 t = 1,才切換到解碼模式,再通過argmax輸出最終token。
值得一提的是,在ELF中,圖像生成裡最常用的技術之一,無分類器引導(CFG, classifier-free guidance)也被搬過來了。
ELF用自我條件化(self-conditioning)作為條件訊號,套上訓練時CFG(一次前向傳播模擬兩次推理,沒有推理開銷),把圖像那邊的方案直接搬了過來。
實驗對比
實驗部分,ELF基本回答了一個過去兩年一直懸著的問題:
連續擴散語言模型,到底能不能打?答案是:不但能打,而且第一次在品質、速度、訓練成本三個維度同時勝出。
如開頭所說,在OpenWebText生成任務中,在不做蒸餾(distillation)的情況下,ELF只用32步採樣,就把生成困惑度壓到了24。
而此前主流的離散擴散模型,往往要跑到1024步,才能接近這個水準。
更誇張的是,ELF實現這一結果時,訓練token只用了450億。
而同級別對手,普遍是5000億以上。換句話說:採樣步數少了一個數量級,訓練數據也少了一個數量級,效果反而更好。
而在很多擴散模型最容易掉隊的條件生成任務上,ELF也沒掉鏈子。
無論是WMT14機器翻譯,還是XSum文本摘要,ELF都穩定超越現有擴散語言模型,甚至把不少自迴歸基線(baseline)也壓了下去。
論文最後給出的總結其實很克制:ELF在生成品質、採樣效率和訓練成本之間,實現了極佳的權衡(trade-off)。
翻成白話就是:連續派,不是不能打。只是以前沒把連續這件事做到底。
作者介紹
最後,我們再來介紹一下這篇文章的作者。這篇論文的兩位第一作者是共同貢獻。
胡珂雅,她是這篇文章的兩位第一作者之一,MIT EECS一年級博士生,也是愷明在MIT帶的第一批博士生之一,目前由何愷明和Jacob Andreas聯合指導。
她大學畢業於上海交大的ACM班,目前的研究興趣主要是語言和視覺的交叉領域,致力於構建資料效率更高、泛化能力更強的智慧體。
值得一提的是,在愷明MIT的主頁中,胡珂雅排在研究生(Grad students)第一位,可以說是組內的大師姐了。
第二位第一作者Linlu Qiu,同樣是MIT的博士生,師從Yoon Kim。
她大學畢業於香港大學,碩士畢業於喬治亞理工學院(Georgia Institute of Technology),此前還在Google做過AI Resident。
有意思的是,這並不是她第一次和愷明合作。就在不久前,她還和愷明團隊一起拿下了CVPR 2026論文《ARC Is a Vision Problem!》,把ARC推理問題重新定義成了視覺問題。
另一位作者Hanhong Zhao(趙瀚宏)為MIT大學部學生,他高中就讀於人大附中,曾是國際物理奧林匹亞競賽(IPhO)金牌得主。
還有一位作者陸伊煬,背景有點「少年班味道」。
他是清華大學姚班大二學生,目前在MIT電腦科學與人工智慧實驗室(CSAIL)實習,導師是何愷明,主要研究方向為電腦視覺和深度生成模型。
高中時期,他是物理競賽生,曾以江蘇選手中第一名、全中國第九名的成績,在2022年獲得了第三十九屆全國中學生物理競賽(CPhO)金牌。
此前,他以第一作者身分與愷明合作過論文《Bidirectional Normalizing Flow: From Data to Noise and Back》。
另一位核心作者黎天鴻,則是愷明組的博士後研究員。
他大學就讀於清華大學姚班,博士畢業於MIT,半年前那篇《Back to Basics: Let Denoising Generative Models Denoise》的第一作者,就是他。
此外,論文的其他作者Yoon Kim、Jacob Andreas,MIT EECS兩位語言模型領域的教授,以及何愷明本人。