すべての物理世界の信号は、最終的に同じ源流を持つ離散トークンに収束するのでしょうか?
長年、視覚信号の連続性は自己回帰型モデリングにおいて扱いにくい特性と見なされてきました。この不規則な特徴に適合させるため、現在の一般的な手法は、モデル内に複雑な空間エンコーディングや異種モジュールを導入することです。
このアーキテクチャ上の妥協案は即効性こそあれ、モデルの論理的一貫性を曖昧にしてしまうという代償を払ってきました。
そんな中、美団(Meituan)の LongCat チームが、新たな基盤モデル「LongCat-Next」をオープンソースとして公開しました。
このモデルが選んだのは、最も素朴な「次トークン予測(NTP)」パラダイムへの回帰です。同チームの見解では、複雑なコードも、高解像度の画像も、環境ノイズを含む音声録音でさえも、本質的には何ら変わりはありません。
「Discrete Native Autoregression(DiNA:離散ネイティブ自己回帰)」と名付けられたこのアーキテクチャは、底层レベルですべてのモダリティにおける統一的なモデリングを実現しています。
LongCat-Next は、美団が独自開発した「LongCat-Flash-Lite MoE」基盤の上に構築されており、アクティブなパラメータ数はわずか 30 億(3B)です。
この 3B というアクティブ規模でありながら、驚異的な効率性を発揮します。文書の解析やチャート理解能力を重点的に評価するベンチマーク「OmniDocBench-EN」および「CharXivRQ」において、同サイズのマルチモーダルモデルである「Qwen3-Omni-A3B」を全項目で凌駕する成績を収めました。
そればかりか、その視覚理解能力は、同サイズの専門モデル「QwenVL」と同等の性能を示しています。
マルチモーダル能力を獲得しながらも、LongCat-Next は「破滅的忘却(catastrophic forgetting)」という難題を克服し、言語モデル本来が持つ論理的深さを維持することに成功しました。
コード作成やエンジニアリングタスクにおける実用性を測る指標「SWE-Bench」でも 43.0 という高得点をキープしており、実際のコードエンジニアリング任務においても極めて高い実用性を保っていることを証明しています。
LongCat-Next のオープンソース化に伴い、美団はその技術報告書も公表しました。
技術報告書:https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub リポジトリ:https://github.com/meituan-longcat/LongCat-Next
HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Next
デモ体験:https://longcat.chat/longcat-next
本稿では、この革新的なモデルの背後にあるロジックを詳細に紐解いていきます。
すべての信号を単一の自己回帰ロジックで処理
物理世界の信号を同一の自己回帰フレームワークに統合する上で、最初に解決すべきは、異なるモダリティ間の表現の統一です。
LongCat-Next の設計思想において、言語の離散モデリングはすでに成熟したエコシステムを有しています。この発想を拡張すれば、音声を言語の音響的表現と見なすことで、音声もまた離散モデリングに自然に適合することがわかります。
真の課題は「視覚」にありました。画像をテキストや音声と同様に処理可能にするため、LongCat-Next は連続する視覚信号をすべて「同じ源流を持つ離散トークン」へと変換しました。
このモダリティを超えた統合は、T-SNE による可視化分析において極めて明確に示されています。異なるモダリティの表現が、空間内で高度に絡み合い、整列している様子が確認できます。
この自然な融合により、モデルは 3D-RoPE や双方向アテンションといった複雑な追加設計を必要とせず、単一のロジック内で「聴く」「話す」「見る」「描く」という能力を自然発生的に獲得しました。
テキストと同様に画像をトークン化
視覚信号の離散化を可能にした中核技術が、LongCat-Next が独自に考案した「Discrete Native Vision Transformer(dNaViT:離散ネイティブ解像度視覚トランスフォーマー)」です。
これは極めて柔軟な統一ビジュアルインターフェースを提供し、画像に対して言語における「トークン化・トークン解除」と同様の能力を付与しました。視覚特徴を視覚語彙として抽出し、階層的な離散トークンへと変換することが可能です。
このメカニズムは任意の解像度の入力をサポートしており、アスペクト比や微細なディテールへの感度が求められる「複雑なチャートの推論」などのタスクにおいて、他を圧倒する優位性を発揮します。
圧縮過程での情報損失を防ぐため、dNaViT は「Residual Vector Quantization(RVQ:残差ベクトル量子化)」メカニズムを導入しています。下位コードブックが上位の残差を再帰的に適合させることで、単一の自己回帰ステップ内で膨大な表現空間を構築し、最終的に 28 倍という高効率な圧縮を達成しています。
アーキテクチャ設計上、フロントエンドの視覚トークン化とバックエンドの生成復号は厳密に分離(デカップリング)されています。
多層の離散トークンは大規模モデルへの入力時に単純な加算融合のみが行われ、生成段階では「Depth Transformer」がマルチモーダル予測ヘッドとして独立して導入されます。
この設計により、フロントエンドのエンコーディング負荷を増大させることなく、マルチレベルのトークンに対する効率的な並列復号を巧みに実現しています。
さらに、離散化プロセスに伴う高次意味情報の欠落を効果的に回避するため、「Semantic Alignment Encoder(SAE:意味整完备エンコーダー)」も導入されました。グローバルな整合とマルチタスクな密な学習により、生成された離散トークンは内在的な情報回復属性を備えるようになりました。
デカップリングされたデュアルトラック構造による高忠実度再現
生成段階において、固定された SAE エンコーダーのみでは高周波数の視覚詳細を捉えきれないという課題がありました。そこで LongCat-Next は、独自の「Dual-Path Detokenization(二重経路トークン解除)」構造を採用しました。
第一の経路は ViT ベースの「構造ピクセルデコーダー」で、低解像度のアンカー画像を生成して大域的なレイアウトを保持し、生成のばらつきを大幅に低減します。
第二の経路は「Diffusion Refiner(拡散リファイナー)」であり、画像に超高周波数の微細な詳細を注入・復元し、画像の高忠実度再構築を確実にします。
テストでは、高次の総和や分数のネストを含む複雑な構造であっても、Diffusion Refiner モジュールの介入により、文字は鮮明で構造も正確な完全な複製に成功しました。
さらに、これらの離散トークンは本来的に画像のレイアウトや構造化要素をエンコードしているため、LongCat-Next は画像生成で頻出する文字の乱れ問題を根本的に回避。限界 OCR タスクにおいても優れたテキスト復元度を示しました。
能力実証テスト
LongCat-Next の公開後、私たちは一連の実証テストを実施しました。
まずは訂正記録が含まれるスーパーのレシートを用意し、その「情報抽出」と「論理照合」能力を検証しました。
LongCat-Next は商品名に含まれる「100g*3」といった数値の干渉を回避し、構造化された JSON データを直接出力しました。
同時に、決済ロジックも正確に理解しました。単品割引が負数での減算、削除された割引が正数での加算であることを特定し、完全な数式「(-9.00) + (-4.50) + (-4.50) + (+4.50)」を提示して、最終的な割引総額との精密な照合を完了させました。
次に、YaRN 論文のパープレキシティ(PPL)折れ線グラフをアップロードし、「異なる手法間のパフォーマンスの差異を分析」するよう指示しました。
LongCat-Next は異なるシーケンス長における PPL の推移を正確に読み取り、元の論文と同一の結論を導き出しました。この種の高密度な学術チャートを処理する際も、情報の欠落や幻覚(ハルシネーション)は見られませんでした。
画像生成においては、「児童向け絵本の表紙」の生成を依頼しました。プロンプトではメインタイトル、サブタイトル、著者名の含意を指示し、レイアウト位置や雪の結晶のようなテクスチャフォントも指定しました。
生成された画像を確認すると、テキストのスペルは完全に正確で、大文字小文字も指示通りでした。タイトルと著者名の上下レイアウトも、文字の浮きや重なりなどの問題は一切発生していません。
公式デモのテストケースでは、四川語の方言で録音された論理推論問題が入力されました。
LongCat-Next はその方言の音声を即座に理解し、正確な論理的推論プロセスを提示しました。
また、音声合成のデモでは、中国語と英語が混在する日常の会議通知の合成が求められました。この中英語混在の処理においても、発音やリズムの切り替えが極めて自然で、機械的な継ぎ目のような違和感は皆無でした。
次世代基盤モデルへ
冒頭の問いに戻りましょう。「すべての物理世界の信号は、最終的に同じ源流を持つ離散トークンに収束するのか?」
LongCat-Next はその実績をもって、明確な回答を示しました。マルチモーダルモデルがパラメータの総当たりや異種モジュールの継ぎ接ぎに依存しがちな現在、基盤アーキテクチャの再構築に依然として膨大な余地があることを証明したのです。
連続する視覚・聴覚信号を同じ源流の離散トークンへと変換することで、マルチモーダルタスクを言語モデルが最も得意とする「次トークン予測」の軌道へと引き戻しました。
これにより、アクティブパラメータがわずか 3B の基盤モデルが、クラスを超えた画像・音声の理解・生成能力を示しただけでなく、システムエンジニアリングにとっても極めてシンプルで効率的な新たな道筋を示しました。
現在、LongCat-Next のコード、モデル重み、完全な技術報告書はすべて公開されています。
モダリティの融合における情報の損失に悩む研究者や開発者にとって、この純粋な離散アーキテクチャは、探求と検証に値する新たなサンプルとなるでしょう。
モダリティ融合の究極の姿が何であるかについて結論づけるのは、まだ時期尚早かもしれません。
しかし LongCat-Next は少なくとも、物理世界の統一表現を追求する道において、外部モジュールを次々と追加する「足し算」だけでなく、基盤ロジックの統一による「引き算」のアプローチも有効であることを示してくれました。