所有的物理世界訊號,最終都能收斂為同源的離散 token 嗎?
長期以來,視覺訊號的連續性被視為自回歸建模中一個難以處理的特性。為了兼容這種不規則的特徵,目前的通用做法是在模型中引入複雜的空間編碼或異構模組。
這種架構上的妥協雖然見效快,但也讓模型的邏輯統一性變得模糊。
就在昨天,美團 LongCat 團隊開源了全新的基座模型 LongCat-Next。
這個模型選擇了回歸最樸素的下一通詞預測(NTP)範式。在它看來,無論是複雜的程式碼、高清的圖片,還是帶有環境底噪的錄音,本質上並無二致。
這種名為離散原生自回歸(DiNA)的架構,在底層實現了全模態的建模統一。
LongCat-Next 構建在美團自研的 LongCat-Flash-Lite MoE 基座之上,啟動參數只有 3B。
在 3B 的啟動規模下,它表現出了出色的效率。在重點考察文件解析與圖表理解能力的 OmniDocBench-EN 和 CharXivRQ 榜單上,它的成績全面超越了同尺寸的全模態模型 Qwen3-Omni-A3B。
不僅如此,其視覺理解能力也與同尺寸的專業模型 QwenVL 相當。
在獲得多模態能力的同時,LongCat-Next 成功克服了災難性遺忘這一痛點,保留了語言模型原本的邏輯深度。
它的 SWE-Bench 成績穩在 43.0,這意味著它在實際的程式碼工程任務中依然保持著極高的可用性。
在開源模型的同時,美團也公布了 LongCat-Next 的技術報告。
技術報告地址:
https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub 地址:
https://github.com/meituan-longcat/LongCat-Next
HuggingFace 地址:
https://huggingface.co/meituan-longcat/LongCat-Next
Demo 體驗:
https://longcat.chat/longcat-next
在這篇文章中,我們將詳細拆解它背後的底層邏輯。
一套自回歸邏輯處理所有訊號
要把物理世界的訊號塞進同一個自回歸框架,首要解決的是不同模態的表徵統一。
在 LongCat-Next 的設定中,語言的離散建模已經具備成熟的生態。順著這個思路,既然語音可以看作是語言的聲態學表示,它同樣順理成章地在離散建模上取得了成功。
真正的挑戰在於視覺。為了讓圖像也能像文字和語音一樣被處理,LongCat-Next 將連續的視覺訊號全部轉化為了同源的離散 token。
這種模態間的統一在 T-SNE 可視化分析中表現得非常直觀,不同模態的表徵在空間中高度交織、對齊。
這種天然的融合,讓模型無需引入 3D-RoPE 或雙向注意力等複雜的額外設計,就能在同一套邏輯裡實現「聽」、「說」、「看」、「畫」的自然湧現。
像處理文字一樣給圖像分詞
解決視覺訊號離散化的核心,是 LongCat-Next 首創的離散原生解析度視覺 Transformer(dNaViT)。
它提供了一個極其靈活的統一視覺介面,真正讓圖像擁有了像語言一樣的「分詞與解詞」能力。它能夠將視覺特徵提取為視覺詞彙,並轉化為層次化的離散 token。
這套機制支援任意解析度的輸入,使得模型在處理複雜圖表推理等對長寬比和微小細節敏感的任務時,具備極強的降維打擊優勢。
為了在壓縮過程中鎖住資訊,dNaViT 引入了殘差向量量化(RVQ)機制。它透過下一層碼本遞迴擬合一層的殘差,在單步自回歸內構建出龐大的表徵空間,最終達成 28 倍的高效壓縮。
在架構設計上,前端的視覺分詞與後端的生成解碼被嚴格解耦。
多層離散 token 在進入大模型時僅作簡單的相加融合;而在生成階段,LongCat-Next 則獨立引入了 Depth Transformer 作為多模態預測頭。
這種設計不增加前端編碼負擔,巧妙實現了多級 token 的高效並行解碼。
此外,為了有效避免離散化過程帶來的高層語義流失,LongCat-Next 引入了語義對齊完備編碼器(SAE)。透過全域對齊與多任務密集學習,模型生成的離散 token 具備了內在的資訊恢復屬性。
解耦雙軌架構下的高保真還原
在生成階段,單純依靠凍結的 SAE 編碼器難以捕捉高頻的視覺細節。因此,LongCat-Next 設計了獨特的解耦的雙軌生成解碼器 (Dual-Path Detokenization)。
第一軌是基於 ViT 的結構像素解碼器,負責生成低解析度錨點圖以保全全域排版,從而極大降低生成方差。
第二軌則是擴散像素細化器(Diffusion Refiner),專門負責向畫面中注入和還原超高頻的微小細節,確保圖像實現高保真重建。
在測試中,面對包含高階連加和分式嵌套的複雜結構,在 Diffusion Refiner 模組的介入下,模型依然能夠做到字跡清晰、結構準確的完美覆刻。
此外,由於這些離散 token 天生編碼了圖像的排版與結構化元素,LongCat-Next 從底層邏輯上規避了圖文生成中常見的文字錯亂問題,在極限 OCR 任務中展現出了優異的文字還原度。
能力實測
在 LongCat-Next 開源後,我們也進行了一系列實測。
我們首先找了一張包含更正記錄的超市小票,測試它的資訊提取與邏輯核對能力。
LongCat-Next 避開了商品名中「100g*3」這類數字的干擾,直接輸出了結構化的 JSON 數據。
同時,它準確理清了結算邏輯。識別出單品折扣是負數扣減、刪除折扣是正數加回,並列出完整算式 (-9.00) + (-4.50) + (-4.50) + (+4.50),與最終的優惠總額完成了精準核對。
▲ 向下滑動,查看完整結果
緊接著,我們又上傳了一張 YaRN 論文中的困惑度(PPL)折線圖,要求它分析不同方法的表現差異。
LongCat-Next 準確讀出了不同序列長度下 PPL 的走勢,並得出了與原論文一致的結論,在處理這類密集的學術圖表時沒有出現資訊遺漏或幻覺。
▲ 向下滑動,查看完整結果
在圖像生成方面,我們嘗試讓它生成一張兒童繪本封面,提示詞中要求包含主標題、副標題和作者名,並指定了排版位置與雪花紋理字體。
從生成的圖片來看,文字拼寫完全準確、大小寫遵循指令,標題和作者名的上下排版也沒有出現文字飄浮或遮擋問題。
在官方展示的測試案例中,團隊輸入了一段用四川方言錄製的邏輯推理題。
LongCat-Next 直接聽懂了方言音訊,並給出了準確的邏輯推導過程。
同樣在官方的語音合成案例中,模型被要求合成一句中英夾雜的日常會議通知。在處理這種中英混語時,它的發音和韻律切換非常自然,沒有生硬的機器拼接感。
走向下一代基座
回到文章開篇的那個問題:所有的物理世界訊號,最終都能收斂為同源的離散 token 嗎?
LongCat-Next 用實際表現給出了一份清晰的答卷。在多模態模型普遍依賴參數堆砌和異構模組拼接的今天,它證明了底層架構的重構依然存在巨大的紅利空間。
透過將連續的視覺與聽覺訊號轉化為同源的離散 token,它成功把多模態任務拉回了語言模型最成熟的下一通詞預測軌道。
這不僅讓一個啟動參數僅為 3B 的基座模型展現出了跨級別的圖音理解與生成能力,更重要的是,它為系統工程提供了一條極簡且高效的新路線。
目前,LongCat-Next 的程式碼、模型權重及完整技術報告均已開源。
對於苦於跨模態融合資訊損耗的研究者和開發者來說,這套純離散架構提供了一個值得深挖與驗證的全新樣本。
模態融合的最終形態究竟是什麼樣,現在下定論或許還為時尚早。
但 LongCat-Next 至少讓我們看到,在尋找物理世界統一表徵的道路上,除了不斷堆砌外掛模組做加法,我們同樣可以透過底層邏輯的統一來做減法。