何愷明チーム、初の言語モデルを発表！105Mパラメータ、45B学習トークン、連続拡散アプローチが主流の離散DLMを正面から上回る

何愷明（Kaiming He）氏率いる研究チームが、新たな研究成果を発表した。それが、言語モデルである。

今回、彼が指揮を執ったのは、ChatGPTの背後にあるような、多くの人に馴染み深い「次のトークン予測（next token prediction）」という自己回帰型のパラダイムではない。

それは、ここ数年で画像分野を席巻し、現在、テキスト生成の領域にも急速に導入されつつある、もう一つの新たなアプローチ：拡散言語モデル（Diffusion Language Model、DLM）である。

最新の論文で、何愷明氏のチームは、まったく新しい連続拡散言語モデルを公開した：ELF: Embedded Language Flowsだ。

ELFモデルの概要を示す図

トークンレベルで拡散を行う多くの言語モデルとは異なり、ELFは生成プロセス全体を連続的な埋め込み（embedding）空間に留め、最終ステップでのみ、再び離散化し、表現をトークンに戻すのである。

この設計により、ELFはわずか1億500万（105M）のパラメータ、450億（45B）の学習トークン、32ステップのサンプリングで、多数の主流な拡散言語モデルを正面から打ち破った。

最も直感的な指標の一つとして、OpenWebTextにおいて、生成パープレキシティ（Generative Perplexity）をわずか24にまで抑え込んだことが挙げられる。

ここで生成パープレキシティについて簡単に説明すると、これは本質的に、強力な言語モデルに生成結果の「宿題チェック」をさせ、そのテキストが実際に人間によって書かれたコーパスらしいかを評価させるものだ。値が低いほど生成品質が高く、モデルが出力したものに「AIらしさ」がなくなり、より自然であることを示す。

主流の拡散言語モデルとの比較において、ELFは学習トークン数が約10分の1、サンプリングステップ数も少ないにもかかわらず、より低い生成パープレキシティを達成している。

ELFと他の拡散言語モデルとの生成パープレキシティ比較を示すグラフ

言い換えれば、長い間、拡散言語モデルの進歩は、ほぼ離散DLM（Discrete DLM）側でのみ起きていたのである。

しかしELFは、ある一つの事実を初めて証明した。それは、「連続的な手法は、単に動作するだけでなく、かなり優れた成果を出せる」ということだ。

ELFは何を実現したのか

ELFを理解するには、まず拡散言語モデルが現在、具体的に何を行っているのかを理解する必要がある。

拡散言語モデルには、主に二つの技術的アプローチが存在する。

一つは、MDLMやDuoに代表される離散派で、トークン空間で直接拡散を行い、各ステップで離散確率変数を処理する。
もう一つは、Diffusion-LM、CDCD、DiffuSeqを含む連続派で、トークンを連続的な埋め込みに変換し、連続空間でノイズ除去を行う。

離散拡散と連続拡散の2つの技術ルートを示す図

これまでの研究では、MDLM、LLaDA、Dream 7Bといった離散アプローチが優勢を占めてきた。その理由は単純明快で、言語そのものが本質的に離散的だからである。

この、一見すると常識的な理解に対し、何愷明氏率いるチームは、まったく逆の判断を下した。問題は「言語は離散的でなければならない」という点ではなく、むしろ、これまでの研究者たちは、連続的なアプローチを「最後まで連続的に行わせていなかった」ということなのだ。

Diffusion-LMのような手法は、埋め込み空間でノイズ除去を行うものの、各ステップでトークンレベルの交差エントロピーを計算する必要があり、連続的な軌跡を常に語彙テーブルに結びつけることになる。

その後に登場したLD4LGやCosmosは、潜在拡散（latent diffusion）のアプローチを採用している。ノイズ除去プロセス自体は連続だが、潜在表現をトークンに戻すために別途デコーダーを学習させる必要があり、つまり、余分なモジュールを一つ多く持つことになる。

この知見に基づき、ELFは全てのノイズ除去処理を、連続的な埋め込み空間内に完全に留める。そして、最終ステップ t=1 においてのみ、トークンに再投影するのである。

ELFモデルのアーキテクチャを示す概要図

具体的には、ELFの学習時、離散トークンはまず連続的な埋め込みにエンコードされ、その後、ノイズが加えられて z_t となる。モデルは、これを元のクリーンな埋め込みに復元するタスク（MSE）、またはトークンを直接予測するタスク（CE）のいずれかを担当する。

ELFの学習プロセスにおけるノイズ付加と予測の流れを示す図

推論時には、モデルはガウスノイズ z_0 から出発し、連続空間でノイズ除去を一貫して行い、最終ステップでのみデコードモードに切り替え、埋め込みをトークンに再投影する。

ELFは初めて、「連続的な表現」と「離散的な出力」という、これまで常に反復的な整合化が必要だと考えられてきた二つの要素を、完全に分離することに成功した。

中間段階のノイズ除去は、完全に連続空間に委ねられ、最終的な言語生成は、最後の離散化ステップにのみ残されるのである。

各ステップで語彙への強制がなく、また、余分なデコーダーの学習も不要である。生成フローは初めて真に、「連続は連続のまま、離散は離散のまま」という状態を実現したのだ。

そして、このことこそが、ELFがより少ないサンプリングステップ数、より少ない学習トークンで、多くの拡散言語モデルを上回る性能を発揮できた鍵なのである。

ELF は「まず拡散、その後デコード」ではない

具体的な実装において、ELFはさらに三つの問題を解決している。

トークンをどのように連続化するか？連続空間でどのようにノイズ除去するか？そして最後に、どのように再びトークンに戻すか？

1. トークンを連続的な埋め込みに変換する

連続拡散を言語に適用するには、まず第一に、離散的なトークンを連続的な表現に変換する必要がある。

論文では、ELFは最初にテキストをトークンシーケンスに分割し、次にそれを連続的な埋め込み空間にマッピングする。この具体的なマッピング方法には、実際には複数の選択肢がある。

デフォルトでは、ELFはT5の事前学習済みエンコーダーを使用し、双方向の文脈埋め込み（contextual embedding）を生成する。論文の後半では、共同学習埋め込み（jointly trained embedding）やランダム埋め込みなど、様々な異なる方式のテストも行われている。

注目すべきは、このエンコーダーが学習段階でのみ使用され、推論時にモジュールを追加する必要がないということだ。

2. 連続埋め込み空間でフローマッチングを実行する

連続表現を取得した後、ELFはその埋め込み空間でフローマッチング（Flow Matching）を実行する。簡単に言えば、フローマッチングは、ノイズから実データへと至る連続的な流れの軌跡を定義する。

t=0の時点では、それはガウスノイズである。
t=1の時点では、それはクリーンな埋め込みである。
その中間の全ての状態は、両者の線形補間であり、これは論文でいうところの「整流フロー（rectified flow）」である。

従来のフローマッチングでは、ネットワークは通常、「速度場 v」を直接予測する。しかし、ELFはこの方法を採用せず、半年前に何愷明チームが発表した論文「Back to Basics: Let Denoising Generative Models Denoise」で提案されたアイデアを踏襲している。それは、クリーンな埋め込み x を直接予測する、すなわちx-predictionである。

フローマッチングにおけるx-predictionとv-predictionの比較を示す図

学習の目標は、予測埋め込みと実際の埋め込みとの間の平均二乗誤差（MSE）を最小化することである。

x-predictionを採用した理由について、論文は二つの理由を挙げている。

第一に、768次元あるいはそれ以上のトークン埋め込みのような高次元の表現において、より安定していること。
第二に、これが最終ステップである「クリーンなトークンの予測」という目標と自然に整合すること。

論文では特に、理論上は速度 v を先に予測し、それを x に換算することも可能だが、そうしてしまうと、その後のノイズ除去とデコードの間での重み共有が難しくなる、とも指摘されている。

実験的にも、一度重みを共有すると、v-predictionの効果が著しく低下することが確認されている。

3. 連続埋め込みから、再び離散トークンへ

言語を生成するのだから、最終出力は依然として離散トークンである。

そのため、ELFは最後のタイムステップ（t=1）でのみ、連続埋め込みを再びトークン空間に投影し直す必要がある。ただし、このステップでELFは、多くの潜在拡散手法のように、デコーダーを別途学習したりはしない。その代わりに、この最終ステップを直接、次のようにみなす。

一回の「連続から離散へのデコーディング」として。

言い換えれば、デコーダーと前方のノイズ除去器は、実際には同一のネットワークなのである。

最終ステップの学習が単純になりすぎないように（なぜなら、理論上 t→1 の時点では、入力はすでにクリーンな埋め込みに非常に近いため）、ELFは最終ステップにおいて、トークンレベルのノイズ（corruption）を追加で導入し、摂動を含む入力を構築する。

その後、同一のネットワークがクリーンな埋め込みを出力し、学習可能な逆埋め込み行列（unembedding matrix）W を介して、トークンのロジット（logits）に投影される。

学習目標は、標準的なトークンレベルの交差エントロピー損失である。ネットワーク全体が単一のパラメータセットを共有し、さらに、ノイズ除去モードかデコードモードかを示す二値のモードトークンを追加で受け取る。

推論時、ELFはガウスノイズから開始し、連続空間で一貫してノイズ除去を行い、最後のステップ t=1 でのみ、デコードモードに切り替え、argmaxを通じて最終的なトークンを出力するのである。

特筆すべきは、ELFにおいて、画像生成で最も広く使われている技術の一つであるCFG（classifier-free guidance、分類器なしガイダンス）も応用されていることだ。

ELFは、セルフコンディショニング（self-conditioning）を条件信号として用い、学習時CFG（1回のフォワード伝播で2回の推論をシミュレートし、推論時の計算コストはゼロ）を適用することで、画像分野の手法をそのまま言語に持ち込んでいる。

実験比較

実験パートにおいて、ELFは、過去2年間にわたって宙吊りになっていた疑問に、基本的に答えを出している。

「連続拡散言語モデルは、本当に戦えるのか？」その答えは、「戦えるどころか、品質、速度、学習コストの三つの側面すべてにおいて、初めて同時に勝利を収めた」である。

冒頭で述べたように、OpenWebTextの生成タスクにおいて、蒸留（distillation）なしで、ELFはわずか32のサンプリングステップで、生成パープレキシティを24にまで抑え込んだ。

これに対し、これまで主流だった離散拡散モデルは、この水準に近づくために、往々にして1024ステップもの計算を必要としていた。

OpenWebTextにおける生成パープレキシティとサンプリングステップ数の比較グラフ

さらに驚くべきことに、ELFがこの結果を達成するために使用した学習トークンは、わずか450億（45B）である。

同クラスの競合モデルは、一般に5000億（500B）以上を使用している。言い換えれば、サンプリングステップ数が一桁少なく、学習データも一桁少ないにもかかわらず、その効果はむしろ優れているのだ。

また、多くの拡散モデルが最も遅れを取りがちな条件付き生成タスクにおいても、ELFはつまずかなかった。

WMT14機械翻訳であれ、XSumテキスト要約であれ、ELFは既存の拡散言語モデルを安定的に上回り、さらには多くの自己回帰ベースラインをも打ち負かしている。

機械翻訳とテキスト要約の各タスクにおける性能比較表

論文の最後に示された総括は、実に控えめなものだ。ELFは、生成品質、サンプリング効率、学習コストの間で、非常に強力なトレードオフを実現した、と。

これを解りやすく言い換えれば、こうだ。「連続派は、戦えなかったわけではない。ただ、これまで連続というアプローチを、徹底的にやり抜いてこなかっただけなのだ。」

著者紹介

最後に、この論文の著者について紹介しよう。本論文の第一著者は、共同で貢献した二名である。

胡珂雅（Ke-ya Hu）氏は、本論文の二名の第一著者の一人であり、MITのEECS学科の博士課程1年生である。何愷明氏がMITで指導する最初の博士課程学生の一人でもあり、現在は何愷明氏とJacob Andreas氏の共同指導を受けている。

胡珂雅氏のポートレート写真

彼女は上海交通大学のACMクラスを卒業し、現在の研究関心は主に言語と視覚の交差領域にあり、よりデータ効率が高く、より強力な汎化能力を持つ知的エージェントの構築を目指している。

特筆すべきは、何愷明氏のMITのホームページにおいて、胡珂雅氏が大学院生（Grad students）の筆頭に掲載されていることである。グループの「大師姐（最初の女性弟子）」と言えるだろう。

MITの何愷明研究室のメンバーリストのスクリーンショット

もう一人の第一著者であるLinlu Qiu氏もMITの博士課程学生であり、Yoon Kim氏に師事している。

Linlu Qiu氏のポートレート写真

彼女は香港大学で学士号を、ジョージア工科大学で修士号を取得し、以前はGoogleでAI Residentとして勤務していた。

興味深いことに、彼女が何愷明氏と協力するのは今回が初めてではない。つい最近も、彼女は何愷明氏のチームと共に、CVPR 2026に採択された論文「ARC Is a Vision Problem!」を発表し、ARC推論問題を視覚問題として再定義した。

論文『ARC Is a Vision Problem!』の概要を示す画像

もう一人の著者であるHanhong Zhao（趙瀚宏）氏はMITの学部生で、高校は中国人民大学附属中学に在籍し、かつて国際物理オリンピック（IPhO）の金メダリストでもある。

趙瀚宏氏のMITプロフィールページのスクリーンショット

さらに、もう一人の著者である陸伊炀（Yi-yang Lu）氏の経歴には、「少年班（飛び級クラス）」のような雰囲気がある。

陸伊炀氏のポートレート写真

彼は清華大学の姚班（Yao Class）に在籍する2年生で、現在はMITのコンピュータ科学・人工知能研究所（CSAIL）でインターンとして研究に従事しており、指導教員は何愷明氏、主な研究方向はコンピュータビジョンと深層生成モデルである。

高校時代は物理オリンピックの競技者であり、江蘇省代表として最高成績、全国で第9位の成績を収め、2022年に第39回全国中学生物理競技会（CPhO）の金メダルを獲得した。

これに先立ち、彼は第一著者として何愷明氏と共に論文「Bidirectional Normalizing Flow: From Data to Noise and Back」を発表している。

論文『Bidirectional Normalizing Flow』の概要を示す図

もう一人の中心的な著者である黎天鴻（Tian-hong Li）氏は、何愷明氏のグループのポスドク研究員である。

黎天鴻氏のポートレート写真

彼は清華大学姚班で学士号を取得し、MITで博士号を取得した。約半年前に発表された論文「Back to Basics: Let Denoising Generative Models Denoise」の第一著者こそ、彼である。

さらに、本論文のその他の著者として、MIT EECS学科の言語モデル分野の教授であるYoon Kim氏、Jacob Andreas氏、そして何愷明氏本人が名を連ねている。

参考リンク

https://arxiv.org/pdf/2605.10938