所有的物理世界訊號，最終都能收斂為同源的離散 token 嗎？

長期以來，視覺訊號的連續性被視為自回歸建模中一個難以處理的特性。為了兼容這種不規則的特徵，目前的通用做法是在模型中引入複雜的空間編碼或異構模組。

這種架構上的妥協雖然見效快，但也讓模型的邏輯統一性變得模糊。

就在昨天，美團 LongCat 團隊開源了全新的基座模型 LongCat-Next。

這個模型選擇了回歸最樸素的下一通詞預測（NTP）範式。在它看來，無論是複雜的程式碼、高清的圖片，還是帶有環境底噪的錄音，本質上並無二致。

這種名為離散原生自回歸（DiNA）的架構，在底層實現了全模態的建模統一。

LongCat-Next 構建在美團自研的 LongCat-Flash-Lite MoE 基座之上，啟動參數只有 3B。

在 3B 的啟動規模下，它表現出了出色的效率。在重點考察文件解析與圖表理解能力的 OmniDocBench-EN 和 CharXivRQ 榜單上，它的成績全面超越了同尺寸的全模態模型 Qwen3-Omni-A3B。

不僅如此，其視覺理解能力也與同尺寸的專業模型 QwenVL 相當。

在獲得多模態能力的同時，LongCat-Next 成功克服了災難性遺忘這一痛點，保留了語言模型原本的邏輯深度。

它的 SWE-Bench 成績穩在 43.0，這意味著它在實際的程式碼工程任務中依然保持著極高的可用性。

〓 LongCat-Next 核心評測榜單表現

在開源模型的同時，美團也公布了 LongCat-Next 的技術報告。

技術報告地址：

https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf

GitHub 地址：

https://github.com/meituan-longcat/LongCat-Next

HuggingFace 地址：

https://huggingface.co/meituan-longcat/LongCat-Next

Demo 體驗：

https://longcat.chat/longcat-next

在這篇文章中，我們將詳細拆解它背後的底層邏輯。

一套自回歸邏輯處理所有訊號

要把物理世界的訊號塞進同一個自回歸框架，首要解決的是不同模態的表徵統一。

〓 DiNA 架構：跨模態訊號向離散 token 的統一收斂

在 LongCat-Next 的設定中，語言的離散建模已經具備成熟的生態。順著這個思路，既然語音可以看作是語言的聲態學表示，它同樣順理成章地在離散建模上取得了成功。

真正的挑戰在於視覺。為了讓圖像也能像文字和語音一樣被處理，LongCat-Next 將連續的視覺訊號全部轉化為了同源的離散 token。

這種模態間的統一在 T-SNE 可視化分析中表現得非常直觀，不同模態的表徵在空間中高度交織、對齊。

〓視覺與語言表徵空間的融合分布

這種天然的融合，讓模型無需引入 3D-RoPE 或雙向注意力等複雜的額外設計，就能在同一套邏輯裡實現「聽」、「說」、「看」、「畫」的自然湧現。

像處理文字一樣給圖像分詞

解決視覺訊號離散化的核心，是 LongCat-Next 首創的離散原生解析度視覺 Transformer（dNaViT）。

它提供了一個極其靈活的統一視覺介面，真正讓圖像擁有了像語言一樣的「分詞與解詞」能力。它能夠將視覺特徵提取為視覺詞彙，並轉化為層次化的離散 token。

這套機制支援任意解析度的輸入，使得模型在處理複雜圖表推理等對長寬比和微小細節敏感的任務時，具備極強的降維打擊優勢。

〓 dNaViT 介面：支援任意解析度的視覺離散化處理

為了在壓縮過程中鎖住資訊，dNaViT 引入了殘差向量量化（RVQ）機制。它透過下一層碼本遞迴擬合一層的殘差，在單步自回歸內構建出龐大的表徵空間，最終達成 28 倍的高效壓縮。

在架構設計上，前端的視覺分詞與後端的生成解碼被嚴格解耦。

多層離散 token 在進入大模型時僅作簡單的相加融合；而在生成階段，LongCat-Next 則獨立引入了 Depth Transformer 作為多模態預測頭。

這種設計不增加前端編碼負擔，巧妙實現了多級 token 的高效並行解碼。

此外，為了有效避免離散化過程帶來的高層語義流失，LongCat-Next 引入了語義對齊完備編碼器（SAE）。透過全域對齊與多任務密集學習，模型生成的離散 token 具備了內在的資訊恢復屬性。

〓 dNaViT 介面與級聯 RVQ 離散化流程

解耦雙軌架構下的高保真還原

在生成階段，單純依靠凍結的 SAE 編碼器難以捕捉高頻的視覺細節。因此，LongCat-Next 設計了獨特的解耦的雙軌生成解碼器 (Dual-Path Detokenization)。

第一軌是基於 ViT 的結構像素解碼器，負責生成低解析度錨點圖以保全全域排版，從而極大降低生成方差。

第二軌則是擴散像素細化器（Diffusion Refiner），專門負責向畫面中注入和還原超高頻的微小細節，確保圖像實現高保真重建。

在測試中，面對包含高階連加和分式嵌套的複雜結構，在 Diffusion Refiner 模組的介入下，模型依然能夠做到字跡清晰、結構準確的完美覆刻。

〓 ViT 解碼器與 Refiner 模組對複雜數學公式的重建效果對比

此外，由於這些離散 token 天生編碼了圖像的排版與結構化元素，LongCat-Next 從底層邏輯上規避了圖文生成中常見的文字錯亂問題，在極限 OCR 任務中展現出了優異的文字還原度。

能力實測

在 LongCat-Next 開源後，我們也進行了一系列實測。

我們首先找了一張包含更正記錄的超市小票，測試它的資訊提取與邏輯核對能力。

LongCat-Next 避開了商品名中「100g*3」這類數字的干擾，直接輸出了結構化的 JSON 數據。

同時，它準確理清了結算邏輯。識別出單品折扣是負數扣減、刪除折扣是正數加回，並列出完整算式 (-9.00) + (-4.50) + (-4.50) + (+4.50)，與最終的優惠總額完成了精準核對。

▲ 向下滑動，查看完整結果

緊接著，我們又上傳了一張 YaRN 論文中的困惑度（PPL）折線圖，要求它分析不同方法的表現差異。

LongCat-Next 準確讀出了不同序列長度下 PPL 的走勢，並得出了與原論文一致的結論，在處理這類密集的學術圖表時沒有出現資訊遺漏或幻覺。

▲ 向下滑動，查看完整結果

在圖像生成方面，我們嘗試讓它生成一張兒童繪本封面，提示詞中要求包含主標題、副標題和作者名，並指定了排版位置與雪花紋理字體。

從生成的圖片來看，文字拼寫完全準確、大小寫遵循指令，標題和作者名的上下排版也沒有出現文字飄浮或遮擋問題。

在官方展示的測試案例中，團隊輸入了一段用四川方言錄製的邏輯推理題。

LongCat-Next 直接聽懂了方言音訊，並給出了準確的邏輯推導過程。

同樣在官方的語音合成案例中，模型被要求合成一句中英夾雜的日常會議通知。在處理這種中英混語時，它的發音和韻律切換非常自然，沒有生硬的機器拼接感。

走向下一代基座

回到文章開篇的那個問題：所有的物理世界訊號，最終都能收斂為同源的離散 token 嗎？

LongCat-Next 用實際表現給出了一份清晰的答卷。在多模態模型普遍依賴參數堆砌和異構模組拼接的今天，它證明了底層架構的重構依然存在巨大的紅利空間。

透過將連續的視覺與聽覺訊號轉化為同源的離散 token，它成功把多模態任務拉回了語言模型最成熟的下一通詞預測軌道。

這不僅讓一個啟動參數僅為 3B 的基座模型展現出了跨級別的圖音理解與生成能力，更重要的是，它為系統工程提供了一條極簡且高效的新路線。

目前，LongCat-Next 的程式碼、模型權重及完整技術報告均已開源。

對於苦於跨模態融合資訊損耗的研究者和開發者來說，這套純離散架構提供了一個值得深挖與驗證的全新樣本。

模態融合的最終形態究竟是什麼樣，現在下定論或許還為時尚早。

但 LongCat-Next 至少讓我們看到，在尋找物理世界統一表徵的道路上，除了不斷堆砌外掛模組做加法，我們同樣可以透過底層邏輯的統一來做減法。

重構原生多模態！美團發布純離散基座，真正實現萬物皆 Token

一套自回歸邏輯處理所有訊號

像處理文字一樣給圖像分詞

解耦雙軌架構下的高保真還原

能力實測

走向下一代基座

相關文章推薦

分享網址