DeepSeek連夜撤下的新論文，究竟說了什麼

昨晚，DeepSeek 的多模態研究員陳小康在 X（前身為 Twitter）上發了一則推文，公開了 DeepSeek 關於多模態技術的新論文《Thinking with Visual Primitives》，並表示「很興奮能發表這個成果」。

陳小康的原始推文截圖

然而今天一早，這則推文被刪除了，GitHub 上的論文也同步下架。

論文被撤下的 GitHub 頁面截圖

但 APPSO 在它消失前就讀完了全文。讀完之後我們認為，這篇論文被撤，恐怕不是因為內容有問題。

恰恰相反，它可能透露了「太多」內幕。

前天我們才實測完 DeepSeek 的識圖模式，請它數手指，它思考了一陣子，自己吐槽說「我真的是數暈了」，然後答錯了。當時以為這只是灰測階段的小問題。

實測 DeepSeek 識圖模式數手指失敗的對話截圖

這篇論文告訴我們，數手指數到頭暈這件事，背後其實藏著一個 GPT、Claude、Gemini 等各家模型都沒能妥善解決的技術瓶頸。

而 DeepSeek 提出的解法，說出來幾乎有點可笑地樸素：為 AI 裝上一根手指。

示意圖：AI 用虛擬手指指向畫面中的物體

陳小康在那則已刪除的推文裡寫道：

「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」

「傳統的思維鏈停留在語言空間裡，但視覺推理需要更多。透過使用點和框作為認知錨點，我們的模型彌合了『引用鴻溝』，模擬了人類『邊指邊想』的協同機制。」

看得清和指得準，是兩回事

目前所有多模態大型模型在做圖像推理時，本質上都是把看到的畫面轉化成文字，然後在文字空間裡做思維鏈推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash，全都走這條路子。

過去兩年，OpenAI、Google、Anthropic 的改良方向都集中在一個問題上：怎麼讓模型看得更清楚。高解析度裁切、動態分塊、把圖片放大再塞進去。DeepSeek 稱之為「感知鴻溝」（Perception Gap）。

但這篇論文指出了另一個瓶頸：引用鴻溝（Reference Gap）。模型是看清楚了，但在推理過程中無法精確指向圖中的某個東西。

你可以這樣理解：一張圖裡 25 個人密密麻麻站在一起，你用語言去描述「左邊第三排穿藍色球衣那個人旁邊的那個」，描述本身就是模糊的。模型數著數著就丟了上下文，忘了剛才數到誰。

人類怎麼解決這個問題？方法夠原始：伸出手指，指一個，數一個。

284B 參數的模型，裝上了一根手指

DeepSeek 的方案是：讓模型在思考過程中，直接輸出圖片上的座標。

想像一下，模型看到一張圖裡有很多人，它的思維鏈不再是「我看到左邊有個穿藍衣服的人」，而是「我看到這個人」，然後附上一個框的座標，把人圈出來。每數一個人就圈一個框，圈完之後數框的數量就行了。

它提供了兩種座標格式：一種是「框」（bounding box），畫個矩形把物體圈住，適合標定物體位置；另一種是「點」（point），在圖上戳一個位置，適合追蹤路徑和走迷宮。DeepSeek 把這兩種東西稱為「視覺原語」，也就是最小的思維單元。

關鍵的變化在這裡：以前模型輸出座標是作為最終答案（例如：「目標在這裡」），現在座標嵌入了思考過程本身。座標是草稿紙上的標記，不是答卷上的答案。

把一張圖壓縮 7,056 倍，然後還能數清楚裡面有幾個人

模型的基底是 DeepSeek-V4-Flash，一個擁有 2,840 億參數的 MoE（混合專家）模型。MoE 的意思是：模型腦子很大，但每次回答問題只調用一小部分神經元來運作，推理時只啟動 130 億個參數。這就好比一個百人團隊，每個任務只派 5 個人上場。

在視覺編碼器這一端，它做了三級壓縮。打個比方：你有一張照片要傳給朋友，但網速很慢。第一步，你把照片切成小方格備用；第二步，每 9 個小方格合併成 1 個（3×3 壓縮）；第三步，在傳輸時進一步精簡掉冗餘資訊（KV Cache 壓縮 4 倍）。

實際數字是：一張 756×756 的圖，約 57 萬像素，一路壓下去變成 81 個資訊單元。壓縮比高達 7,056 倍。

我看到這個數字的第一反應是：這還能看清東西？但論文裡的結果說明，確實能。不光能看清，還能精確數出圖裡有 25 個人。

論文中展示的圖片壓縮與人物計數範例

來對比一下：同樣是 800×800 的圖，Gemini-3-Flash 消耗約 1,100 個 token 來表示這張圖，Claude-Sonnet-4.6 約 870 個，GPT-5.4 約 740 個。而 DeepSeek 在最終計算時只用 90 個資訊單元。別人用一千多個格子來記住一張圖，DeepSeek 用 90 個格子就夠了，然後把省下來的算力全拿去「指」。

4,000 萬條訓練數據是怎麼攢出來的

DeepSeek 從 Huggingface 等平台把所有帶有「目標檢測」標籤的資料集都爬了下來，初步篩選後得到 97,984 個資料來源。

接著做了兩輪篩選。

第一輪檢查標籤品質。用 AI 自動審核三類問題：標籤是無意義的數字編號（類別名叫「0」、「1」的那種）、標籤是私人實體（例如「MyRoommate」）、標籤是模糊縮寫（工業檢測裡的「OK」、「NG」，一顆蘋果的「OK」和一塊電路板的「OK」長得完全不一樣，AI 學不了）。這一輪砍掉 56%，剩下 43,141 個。

第二輪檢查框的品質。三個標準：漏標太多的（標了一半就不標了）、框畫歪了切掉物體一半的、框大到把整張圖都框住的（這表示原始數據是圖片分類硬轉成的檢測數據，沒有定位資訊）。再砍掉 27%，剩下 31,701 個。

最後按類別取樣、去重，產出超過 4,000 萬個高品質樣本。

DeepSeek 選擇先把「框」的數據做大，「點」的數據後面再補。原因也很簡單：你讓 AI 標一個框，答案基本上是唯一的（把物體剛剛好圈住）；但讓 AI 標一個點，物體上哪個位置都算對，沒有唯一正確答案，訓練訊號太模糊。而且框本身就包含了兩個點（左上角和右下角），學會畫框之後，標點就只是降維操作。

怎麼把「指」這個能力教給模型

後訓練的策略是「先分頭練，再合併」。

DeepSeek 先拿框的數據訓練一個專門畫框的專家模型，再拿點的數據訓練一個專門標點的專家模型。分開訓練是因為數據量還不夠大，兩種能力混在一起容易互相干擾。

然後對兩位專家分別做強化學習。怎麼判斷模型「畫對了框」或「走對了路」呢？DeepSeek 設計了一套多維度的評分系統：格式對不對（座標語法正確嗎）、邏輯通不通（思考過程有沒有自相矛盾）、答案準不準（最終結果和標準答案差多少）。

強化學習的數據篩選也有學問：先讓模型做 N 遍同一道題，全做對的題太簡單，沒有訓練價值；全做錯的題太難，學不到東西；只留下「有對有錯」的題來練。

最後一步是把兩位專家的能力合併到一個模型裡。具體做法是：讓統一模型照著兩位專家的輸出去學習，類似於一個學生同時跟兩位老師學不同科目。

給了它手指之後，它是怎麼數數的

數 25 個人

模型在足球隊合照上標註框線進行計數的示意圖

給模型一張足球隊合照，問：「圖裡有多少人？」

思考過程：先判斷「這是團隊合照，要數所有人，包括球員和教練」。然後一次性輸出 25 個框的座標，每個人身上圈一個框。接著按排數統計：前排坐著 4 個 + 中排 9 個 + 後排 8 個 + 左側 2 個教練 + 右側 2 個教練 = 25。

「地上的熊有幾隻？」

模型在熊的圖片上逐一判斷位置並計數的示意圖

圖中有三隻熊。模型逐一給每隻畫框並判斷位置：第一隻，在樹幹上垂直攀爬，排除；第二隻，在岩石邊緣走動，算；第三隻，在碎木和泥土之間，也算。答案：2 隻。

它不是先數出三隻再減一隻，而是對每隻都做了「是不是在地面上」的判斷，每個判斷背後都有一個具體的座標錨定。它真的在逐一檢查，不是在猜。

多跳空間推理

模型在3D渲染的幾何體場景中進行多跳推理的示意圖

一個 3D 渲染場景裡有一堆彩色幾何體。問題是：「存不存在一個紫色橡膠物體跟灰色金屬物體一樣大？」

模型先框出灰色金屬球體，確認是個小號物體。然後逐一框出場景裡其他小號物體：棕色金屬圓柱、藍色金屬方塊、藍色橡膠方塊、黃色橡膠圓柱……六個物體逐一查，顏色、材質、大小三個屬性一一核對。結論是：不存在紫色橡膠的。

六次定位，六次判斷。每一步都有座標錨定著，不會出現「等等，剛才查到哪了」的情況。

論文中更多案例參考：

論文中的更多案例合集，包含各種視覺推理任務

迷宮導航：別人擲硬幣，DeepSeek 真的在搜尋

論文測試了四種任務，迷宮是差距拉得最開的一項。

任務很直接：給一張迷宮圖，問從起點到終點有沒有路，有的話畫出來。迷宮有三種形狀：方格、圓環和蜂巢。

模型走迷宮的方式跟你小時候用鉛筆在紙上畫一樣：選一條岔路走到盡頭，走不通就退回來試另一條。唯一的差別是，它每走一步都在圖上標一個座標點，留下記錄。

論文裡展示了一個圓形迷宮的完整過程：模型先標出起點和終點的位置，然後開始探索。走了 18 步，中間兩次鑽進死胡同又退出來，最後繞出了一條通路，把整條路徑的座標點串起來輸出。

DeepSeek 還設計了一批陷阱迷宮：乍看之下有路，但中間某段被偷偷堵住了。這種迷宮考驗的是耐心，模型不能只看起點附近的走勢就下結論，得老老實實把能走的路都試一遍，才能確認走不通。

模型在迷宮中逐步探索路徑的完整過程示意圖

準確率對比：

- DeepSeek：66.9%

- GPT-5.4：50.6%

- Claude-Sonnet-4.6：48.9%

- Gemini-3-Flash：49.4%

- Qwen3-VL：49.6%

迷宮只有兩種答案：有路，或者沒路。隨機亂猜正好是 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近打轉，跟擲硬幣沒什麼兩樣。DeepSeek 的 66.9% 不算高，但它確實是在一步步地走，不是在瞎矇。

路徑追蹤：大家來找碴的終極版本

這個任務更直觀：一堆線纏在一起，每條線從一個標記通向另一個標記。你的耳機線從口袋裡掏出來是什麼樣子，畫面就是什麼樣子。題目問你：「C 這條線通向哪個終點？」

模型的做法是沿著線一路輸出座標點，像手指劃過紙面。線彎得厲害的地方，點就標得密；直線段則標得疏。人類用眼睛追一根線的時候也是這樣，彎道處慢下來，直線處一掃而過。

模型在纏繞的線中追蹤路徑的示意圖

論文還加了一個加難版的測試：所有線的顏色和粗細都一樣。不能靠顏色區分是哪根線了，只能靠曲線本身的走勢連續性來判斷在交叉口該跟著哪條走。

- DeepSeek：56.7%

- GPT-5.4：46.5%

- Claude-Sonnet-4.6：30.6%

- Gemini-3-Flash：41.4%

Claude 的 30.6% 有點出乎意料。終點通常有四、五個選項，隨機猜也該有 20% 出頭，30.6% 只比瞎猜強一點點。可能它在這類純空間追蹤任務上，語言推理的慣性反而幫了倒忙。

怎麼教 AI 走迷宮不作弊

迷宮的訓練有一個現實問題：如果只看最終答對還是答錯來給分，模型很快就學精了——與其費勁搜尋還可能答錯，不如直接猜一個，反正認真走了答錯，跟沒走就答錯，分數一樣是零。

DeepSeek 的解決辦法是把過程也算進分數。每一步合法的探索都給分，穿牆則扣分，走得越遠越好。哪怕最後沒到終點，只要認真搜尋了大部分區域，也能拿到不錯的成績。這樣一來，模型就沒有偷懶的動機了。

對於無解的迷宮，要求更高：不能光說一句「走不通」，還得證明你確實把能到的地方都走遍了。搜尋覆蓋率也會算分。

一個彩蛋，三個局限

後訓練的數據裡沒有中文。但模型能用中文做視覺原語推理。

給它一張咖啡機的照片，用中文問「怎麼做拿鐵」，它用中文標註了蒸氣棒、奶壺、咖啡豆、拿鐵按鈕的位置座標，然後給出操作步驟。多語言能力是從基底模型那裡繼承來的，視覺原語的訓練並沒有把它破壞掉。

模型用中文推理如何操作咖啡機的示意圖

它還能將看圖和世界知識結合起來：給一張金門大橋的照片，問「這附近有 NBA 球隊嗎？」它先框出金門大橋，推理出這裡是舊金山，然後回答金州勇士隊。

模型結合圖像和世界知識回答金門大橋附近NBA球隊的示意圖

它能理解幽默：一塊水果切面上的天然斑點恰好組成了一張憂鬱貓臉的模樣，模型能指出相似點在哪裡，並解釋為什麼好笑。

模型識別水果切面上的貓臉圖案並解釋幽默之處的示意圖

它還能做密室逃脫指導：框出高處的鑰匙、地板上的椅子、帶鎖的門，然後建議「把椅子搬到鑰匙下方 → 踩上去拿鑰匙 → 去開門」。

模型為密室逃脫場景提供逐步推理和行動建議的示意圖

論文很坦誠地寫了目前做不到的事。

輸入的解析度有限制。ViT 輸出被卡在 81 到 384 個視覺資訊單元之間，遇到很精細的場景（比如數手指這種），座標精度還不夠。這可能就是前天實測時數手指翻車的直接原因。

目前需要特定的觸發詞才能啟動視覺原語模式。模型還不能自己判斷「這道題我該伸出手指來做」，得有人提醒它。

拓撲推理的泛化能力有限。在訓練過的迷宮類型上效果好，換一種新的空間結構就可能掉鍊子。陳小康在那條已刪除的推文裡也說了：

「We're still in the early stages; generalization in complex topological reasoning tasks isn't perfect yet, but we're committed to solving it.」

「我們還在早期階段，複雜拓撲推理任務的泛化能力還不完善，但我們會持續解決。」

前天實測時，DeepSeek 識圖模式展現的那些能力（追問發布者身分、聯想鯨魚 logo 的含義、自我糾正、給自己開「小型答辯會」），和這篇論文描述的思維方式一脈相承。它在腦中建立視覺錨點，圍繞錨點做推理，碰到矛盾就回溯修正。

而數手指數到頭暈，就是「引用鴻溝」的活生生展示。在手指交叉重疊的畫面裡，純靠語言描述去區分「從左數第三根」和「從右數第二根」，跟你自己不伸手指去數一群擠在一起的人道理一樣，注定會陷入混亂。

這篇論文指向的方向是：多模態推理的下一步進化關鍵在於「錨定機制」。DeepSeek 用 90 個資訊單元就打平了別人用上千 token 的效果，省下來的算力全拿去讓模型「一邊想、一邊指」。

總結圖片：手寫風格的 DeepSeek 鯨魚圖案與論文核心概念

解析度的軍備競賽可以緩一緩了，教會模型伸出手指，比給它配一副更貴的眼鏡還管用。

這隻鯨魚開了天眼之後，現在還長出了手指。66.9% 的迷宮準確率離完美還很遠，但至少它在認真走，不像隔壁那幾位在擲硬幣。

DeepSeek連夜撤下的新論文，究竟說了什麼

相關文章推薦

分享網址