美團低調上新!實測首個開源「重思考」模型:8路並行,Agent硬剛Claude

近日,美團 LongCat 團隊開源了其最新的旗艦模型——LongCat-Flash-Thinking-2601。

這款基於 5600 億參數 MoE 架構的新模型,並未單純追求榜單分數的提升,而是將迭代重心聚焦於大模型落地最關鍵的兩個能力:深度邏輯推理(Thinking)與陌生環境下的智能體泛化(Agentic OOD)。

此次更新中,官方不僅上線了能夠並行啟動 8 條推理路徑的重思考模式(Heavy Thinking Mode),更值得關注的是其在評測方法上的革新。

為了驗證模型真實的泛化能力,團隊引入了一套自動化的盲考機制,系統不再使用固定題庫,而是基於關鍵詞實時隨機合成配備對應工具集與執行環境的複雜任務。

這種動態生成的測試方式,有效規避了模型「背題」的可能性,更能反映模型在未知場景下的真實表現。

實驗結果顯示,在處理此類高度隨機化的複雜工具鏈任務時,LongCat-2601 展現出了 SOTA 級的適應能力,其性能表現甚至超越了 Claude。

圖片

在智能體工具調用、智能體搜索和工具集成推理等核心基準評測中表現優異,多項指標達成開源 SOTA

但跑分再高,不如拉到真實環境裡遛一遛。

為了測出它的真實水位,我們避開了常規題庫,專門構建了四個非理想環境。從燒腦邏輯到髒數據清洗,看看這隻龍貓到底能不能打。

圖片

邏輯實測

面對多約束、互斥型的複雜邏輯,傳統的思維鏈(CoT)往往容易陷入局部最優解。

為了壓榨出 LongCat 的真實上限,我們設計了一道劇本殺式的邏輯陷阱:

莊園發生謀殺案。5 個嫌疑人,已知兇手只有 1 人,且 5 人中恰好有 2 人說了謊。

A 說:B 是兇手。B 說:D 是兇手。C 說:我不是兇手。D 說:B 在撒謊。E 說:B 和 C 都在撒謊。

請推理誰是兇手?

開啟深度思考後,後台瞬間熱鬧了起來——8 個獨立的 Thinker 同時開工。

圖片圖片圖片圖片圖片

上下滑動,查看更多

這不像是在做題,更像是一個團隊在開會討論:

發散階段:Thinker 1 嘗試以 A 為兇手進行正向推導,但在第三步發現違反「2人說謊」的全局約束,路徑被標記為不可行;與此同時,Thinker 3 選擇從 E 的供詞切入,反向鎖定 B 和 C 的真假狀態。

收斂階段:當所有分身跑完流程,Meta-Reasoning(主腦)像一位經驗豐富的法官,剔除掉那些邏輯自相矛盾的假設,一錘定音收斂至唯一解:兇手是 B,說謊者是 B 和 E。

這種機制在本質上模擬了人類 System 2 的慢思考過程,通過多路徑的交叉驗證,有效規避了單點邏輯幻覺。

圖片

魯棒性挑戰

真實世界的工程挑戰,往往不在於程式碼怎麼寫,而在於如何處理意料之外的髒數據。

針對美團在官方技術解讀中強調的抗噪訓練,我們決定不上常規考題,而是直接構造一段處於崩潰邊緣的後台日志,模擬真實業務中常見的中英混雜噪聲,看它能否還原真相。

輸入一段模擬「外賣炸單」場景的非結構化日志,包含 API 報錯(503 Error)、OCR 識別錯誤常見的「中英混雜亂碼」(如 Cr@yfish)及干擾符,要求模型忽略噪聲,還原出標準的 JSON 訂單數據。

圖片圖片

左側為包含報錯與亂碼的原始日志,右側為模型清洗還原後的標準 JSON。

LongCat 展現出了極強的工程魯棒性:

有效載荷提取:面對頂部醒目的紅色 # EXCEPTION 警報與隨後的 [ERR_CODE:503] 中斷資訊,模型未受干擾,精準跨越報錯區,定位到下方有效的 Raw_Payload 資料段。

語義糾錯:面對 <<麻辣_Cr@yfish_小龍蝦>> 這種典型的中英混雜噪聲,模型展現了極強的語義理解力,精準剔除了 Cr@yfish 等冗餘字元,將其還原為標準的中文 SKU 「麻辣小龍蝦」。

屬性結構化:敏銳識別出 MT-User-9527#X 中的 #X 為系統干擾後缀並予以剔除;同時將 '冰_Cola_無糖' 智慧拆解為商品名「可樂」與屬性「無糖、冰」,而非機械地進行字串拼接。

這一表現印證了模型在訓練階段經歷了系統化的噪聲注入,使其在面對中文語境下的複雜混合噪聲時,仍能保持穩定的推理能力。

圖片

程式碼生成

在程式碼生成環節,我們將難度從單純的功能實現升級到了跨學科融合的維度。題目要求編寫一個互動式黑洞引力場模擬器,這不僅考驗程式碼邏輯,更需要模型同時具備物理常識與視覺審美能力。

編寫單檔案 HTML5 Canvas 應用:生成 3000 個粒子,鼠標作為引力源(黑洞),需嚴格遵循牛頓引力公式,並實現賽博龐克風格的流體視覺效果。

程式碼是一次跑通的。放大看細節,你會發現 LongCat 展現出了對物理規律的深度理解。

1. 物理真實性:粒子運動軌跡嚴格遵循 F = G*m1*m2/r² 引力公式,互動過程中能明顯觀察到加速度隨距離變化的物理特性。

2. 視覺演算法:模型構建了一套基於速度的顏色映射演算法,粒子在靜止狀態呈冷色調,加速被吸入黑洞時轉為高亮紫白色,視覺層次分明。

3. 渲染效能:透過 Canvas 層面的優化,實現了 3000 個粒子的 60FPS 流暢渲染,並利用半透明蒙版技術實現了複雜的流光拖尾效果。

圖片

終極 OOD 實測

為了徹底排除背題庫的可能性,第四關我們直接接入了美團官方的 OOD 評測平台。在這個環節,所有任務均由系統基於關鍵詞隨機生成。

系統隨機生成了一項企業員工年假自助查詢任務,並且在資料庫中設下陷阱:故意隱去了計算餘額必不可少的「今年已休天數」參數。

圖片

面對計算參數缺失這個坑,Claude-4.5-Opus 犯了企業級應用的大忌,它為了求快,直接跳過了身份核驗步驟,導致結果完全不可信。

圖片

上下滑動,查看更多

但 LongCat 展現出了令人驚喜的 Agent 邊界意識,它沒有瞎編,而是一步步穩紮穩打。

圖片

上下滑動,查看更多

身份錨定:首先調用 get_employee_by_id 確認員工身份(E10001),確保沒有查錯人。

參數嗅探:在準備調用計算工具時,敏銳發現缺少「已休天數」這一關鍵變量,隨即暫停工具鏈執行。

主動澄清:向用戶列出詳細的問題清單:「1. 已累計年假?2. 已使用年假?3.結轉天數?」,直到獲取真實數據後才進行計算。

這種「知道自己不知道」的能力,在最終的評測報告中得到了量化印證。

圖片

Claude 雖然快,但因第一步就忽略身份核驗且偽造參數,最終僅獲 67% 的及格分。而 LongCat 僅多花了不到 7 秒鐘(48.9s vs 42.2s),就換來了 100% 的任務標準覆蓋率。

在企業級場景下,極低的時間成本換取絕對的業務準確性,這才是真正的降本增效。

圖片技術拆解

如此驚豔的實測表現,並非簡單的參數堆疊,而是源於底層訓練範式的系統性重構。

在基礎架構層面,2601 版本沿用了 LongCat-Flash-Thinking 系列成熟的基座方案,基於 560B 參數量的混合專家(MoE)架構,並繼承了上一代驗證有效的領域並行訓練策略。

在此堅實底座之上,新版本透過引入並行思考、環境規模擴展、多環境強化學習及抗噪課程學習等變量,實現了能力的躍遷。

1. 重思考模式

在邏輯實測中,LongCat-2601 展現出的重思考模式是其最核心的差異化特性。不同於傳統 CoT 線性的推導方式,該模式在推理層引入了並行與遞歸機制。

在此基礎上,模型引入了系統級的重思考模式。不同於傳統的 CoT,美團將慢思考工程化為「並行思考 + 總結歸納」的雙階段流程:

推理廣度的構建:模型能夠並行實例化 8 個獨立的 Thinker。系統透過提高採樣溫度,強制不同 Thinker 探索差異化的推理路徑,從而在解空間中覆蓋更多的潛在可能性。

推理深度的強化:這是一個閉環過程。總結模組會對 8 條並行軌跡進行收斂與去偽存真,將精煉後的邏輯錨點反饋回推理流,形成「思考-總結-再思考」的迭代循環。

圖片

實測中 LongCat 開啟重思考模式,後台展現出 8 路並行的思維鏈。

2. 智能體訓練

為了解決 Agent 在陌生場景下的泛化難題,美團技術團隊選擇了一條環境規模擴展(Environment Scaling)的技術路線。

團隊並沒有依賴靜態的訓練數據,而是構建了一個動態的高保真訓練場。每套環境不僅整合了 60 餘種原子工具,更構建了高密度的工具依賴圖譜。

在任務構建環節,系統採用連通子圖採樣技術,從複雜的工具網絡中提取邏輯關聯的子集,自動合成具有可執行解的高複雜度任務。

這種合成數據策略,讓模型在訓練階段就見識了海量的工具組合形態,從而在面對 OOD 任務時具備了極強的適應性。

圖片

訓練環境中整合的工具密集依賴關係圖譜可視化

3. 基礎設施升級

大規模環境的引入對訓練框架提出了挑戰。為此,美團升級了其自研的 DORA(異步彈性共卡系統),使其支援多環境大規模強化學習(Multi-Environment RL Scaling)。

該系統不僅實現了多環境任務的均衡混合訓練,更引入了智慧化的資源調度機制——流式 Rollout 預算(Streaming Rollout Budget)”。系統會依據當前任務的難度係數和模型的訓練進度,動態分配算力資源。

從官方披露的訓練曲線可見,隨著環境數量的增加,模型的收益呈現出極具魯棒性的增長態勢。

圖片

多環境強化學習訓練曲線,顯示出隨著環境數量增加,模型性能呈穩健增長趨勢。

4. 魯棒性工程

針對真實業務中常見的髒數據問題,LongCat 採用了課程學習(Curriculum Learning)策略進行專項訓練。

訓練系統會將 API 超時、亂碼、欄位缺失等「噪聲」進行分類,並按照從易到難的梯度逐步注入到訓練環境中。

這種系統性的抗干擾脫敏,直接鑄就了模型在實測中面對 OCR 亂碼和中英混雜干擾時的穩定性。

圖片

引入抗噪訓練後,模型在含噪環境(Noise)下的魯棒性顯著提升。

5. 底層算力優化

在演算法之外,美團還披露了一項底層架構層面的優化——ZigZag Attention。

圖片

ZigZag Attention 架構原理:支援百萬級長上下文的高效稀疏注意力機制

這項稀疏注意力技術已被應用於該模型家族的分支版本訓練中。它成功解決了超長上下文的算力瓶頸,使得模型在處理 100 萬 token 級別的輸入時,仍能保持極高的計算效率與顯存利用率。

圖片結語

LongCat-Flash-Thinking-2601 的發布,展示了美團在演算法與工程結合上的深厚功力。

在大模型競相刷榜的當下,美團選擇了一條更為務實且艱難的路——追求確定性。它不再僅僅是一個會聊天的 bot,更是一個在面對混亂數據與複雜流程時,依然能保持邏輯清醒、執行果斷的數字工匠。

它的出現再次印證了一個趨勢,大模型的下半場,拼的不是誰更會「說」,而是誰更會「做」。

目前,該模型已在 longcat.ai 開放免費體驗,相關權重也已在 HuggingFace 等平台開源。

傳送門在此

👇

開源平台:

https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

https://www.modelscope.cn/models/meituan-longcat/LongCat-Flash-Thinking-2601

線上體驗:

https://longcat.ai/

API 開放平台:

https://longcat.chat/platform/usage

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點擊「關注」訂閱我們的專欄吧


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.