昨晚,DeepSeek 的多模態研究員陳小康在 X(前身為 Twitter)上發了一則推文,公開了 DeepSeek 關於多模態技術的新論文《Thinking with Visual Primitives》,並表示「很興奮能發表這個成果」。
然而今天一早,這則推文被刪除了,GitHub 上的論文也同步下架。
但 APPSO 在它消失前就讀完了全文。讀完之後我們認為,這篇論文被撤,恐怕不是因為內容有問題。
恰恰相反,它可能透露了「太多」內幕。
前天我們才實測完 DeepSeek 的識圖模式,請它數手指,它思考了一陣子,自己吐槽說「我真的是數暈了」,然後答錯了。當時以為這只是灰測階段的小問題。
這篇論文告訴我們,數手指數到頭暈這件事,背後其實藏著一個 GPT、Claude、Gemini 等各家模型都沒能妥善解決的技術瓶頸。
而 DeepSeek 提出的解法,說出來幾乎有點可笑地樸素:為 AI 裝上一根手指。
陳小康在那則已刪除的推文裡寫道:
「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」
「傳統的思維鏈停留在語言空間裡,但視覺推理需要更多。透過使用點和框作為認知錨點,我們的模型彌合了『引用鴻溝』,模擬了人類『邊指邊想』的協同機制。」
看得清和指得準,是兩回事
目前所有多模態大型模型在做圖像推理時,本質上都是把看到的畫面轉化成文字,然後在文字空間裡做思維鏈推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash,全都走這條路子。
過去兩年,OpenAI、Google、Anthropic 的改良方向都集中在一個問題上:怎麼讓模型看得更清楚。高解析度裁切、動態分塊、把圖片放大再塞進去。DeepSeek 稱之為「感知鴻溝」(Perception Gap)。
但這篇論文指出了另一個瓶頸:引用鴻溝(Reference Gap)。模型是看清楚了,但在推理過程中無法精確指向圖中的某個東西。
你可以這樣理解:一張圖裡 25 個人密密麻麻站在一起,你用語言去描述「左邊第三排穿藍色球衣那個人旁邊的那個」,描述本身就是模糊的。模型數著數著就丟了上下文,忘了剛才數到誰。
人類怎麼解決這個問題?方法夠原始:伸出手指,指一個,數一個。
284B 參數的模型,裝上了一根手指
DeepSeek 的方案是:讓模型在思考過程中,直接輸出圖片上的座標。
想像一下,模型看到一張圖裡有很多人,它的思維鏈不再是「我看到左邊有個穿藍衣服的人」,而是「我看到這個人」,然後附上一個框的座標,把人圈出來。每數一個人就圈一個框,圈完之後數框的數量就行了。
它提供了兩種座標格式:一種是「框」(bounding box),畫個矩形把物體圈住,適合標定物體位置;另一種是「點」(point),在圖上戳一個位置,適合追蹤路徑和走迷宮。DeepSeek 把這兩種東西稱為「視覺原語」,也就是最小的思維單元。
關鍵的變化在這裡:以前模型輸出座標是作為最終答案(例如:「目標在這裡」),現在座標嵌入了思考過程本身。座標是草稿紙上的標記,不是答卷上的答案。
把一張圖壓縮 7,056 倍,然後還能數清楚裡面有幾個人
模型的基底是 DeepSeek-V4-Flash,一個擁有 2,840 億參數的 MoE(混合專家)模型。MoE 的意思是:模型腦子很大,但每次回答問題只調用一小部分神經元來運作,推理時只啟動 130 億個參數。這就好比一個百人團隊,每個任務只派 5 個人上場。
在視覺編碼器這一端,它做了三級壓縮。打個比方:你有一張照片要傳給朋友,但網速很慢。第一步,你把照片切成小方格備用;第二步,每 9 個小方格合併成 1 個(3×3 壓縮);第三步,在傳輸時進一步精簡掉冗餘資訊(KV Cache 壓縮 4 倍)。
實際數字是:一張 756×756 的圖,約 57 萬像素,一路壓下去變成 81 個資訊單元。壓縮比高達 7,056 倍。
我看到這個數字的第一反應是:這還能看清東西?但論文裡的結果說明,確實能。不光能看清,還能精確數出圖裡有 25 個人。
來對比一下:同樣是 800×800 的圖,Gemini-3-Flash 消耗約 1,100 個 token 來表示這張圖,Claude-Sonnet-4.6 約 870 個,GPT-5.4 約 740 個。而 DeepSeek 在最終計算時只用 90 個資訊單元。別人用一千多個格子來記住一張圖,DeepSeek 用 90 個格子就夠了,然後把省下來的算力全拿去「指」。
4,000 萬條訓練數據是怎麼攢出來的
DeepSeek 從 Huggingface 等平台把所有帶有「目標檢測」標籤的資料集都爬了下來,初步篩選後得到 97,984 個資料來源。
接著做了兩輪篩選。
第一輪檢查標籤品質。用 AI 自動審核三類問題:標籤是無意義的數字編號(類別名叫「0」、「1」的那種)、標籤是私人實體(例如「MyRoommate」)、標籤是模糊縮寫(工業檢測裡的「OK」、「NG」,一顆蘋果的「OK」和一塊電路板的「OK」長得完全不一樣,AI 學不了)。這一輪砍掉 56%,剩下 43,141 個。
第二輪檢查框的品質。三個標準:漏標太多的(標了一半就不標了)、框畫歪了切掉物體一半的、框大到把整張圖都框住的(這表示原始數據是圖片分類硬轉成的檢測數據,沒有定位資訊)。再砍掉 27%,剩下 31,701 個。
最後按類別取樣、去重,產出超過 4,000 萬個高品質樣本。
DeepSeek 選擇先把「框」的數據做大,「點」的數據後面再補。原因也很簡單:你讓 AI 標一個框,答案基本上是唯一的(把物體剛剛好圈住);但讓 AI 標一個點,物體上哪個位置都算對,沒有唯一正確答案,訓練訊號太模糊。而且框本身就包含了兩個點(左上角和右下角),學會畫框之後,標點就只是降維操作。
怎麼把「指」這個能力教給模型
後訓練的策略是「先分頭練,再合併」。
DeepSeek 先拿框的數據訓練一個專門畫框的專家模型,再拿點的數據訓練一個專門標點的專家模型。分開訓練是因為數據量還不夠大,兩種能力混在一起容易互相干擾。
然後對兩位專家分別做強化學習。怎麼判斷模型「畫對了框」或「走對了路」呢?DeepSeek 設計了一套多維度的評分系統:格式對不對(座標語法正確嗎)、邏輯通不通(思考過程有沒有自相矛盾)、答案準不準(最終結果和標準答案差多少)。
強化學習的數據篩選也有學問:先讓模型做 N 遍同一道題,全做對的題太簡單,沒有訓練價值;全做錯的題太難,學不到東西;只留下「有對有錯」的題來練。
最後一步是把兩位專家的能力合併到一個模型裡。具體做法是:讓統一模型照著兩位專家的輸出去學習,類似於一個學生同時跟兩位老師學不同科目。
給了它手指之後,它是怎麼數數的
數 25 個人
給模型一張足球隊合照,問:「圖裡有多少人?」
思考過程:先判斷「這是團隊合照,要數所有人,包括球員和教練」。然後一次性輸出 25 個框的座標,每個人身上圈一個框。接著按排數統計:前排坐著 4 個 + 中排 9 個 + 後排 8 個 + 左側 2 個教練 + 右側 2 個教練 = 25。
「地上的熊有幾隻?」
圖中有三隻熊。模型逐一給每隻畫框並判斷位置:第一隻,在樹幹上垂直攀爬,排除;第二隻,在岩石邊緣走動,算;第三隻,在碎木和泥土之間,也算。答案:2 隻。
它不是先數出三隻再減一隻,而是對每隻都做了「是不是在地面上」的判斷,每個判斷背後都有一個具體的座標錨定。它真的在逐一檢查,不是在猜。
多跳空間推理
一個 3D 渲染場景裡有一堆彩色幾何體。問題是:「存不存在一個紫色橡膠物體跟灰色金屬物體一樣大?」
模型先框出灰色金屬球體,確認是個小號物體。然後逐一框出場景裡其他小號物體:棕色金屬圓柱、藍色金屬方塊、藍色橡膠方塊、黃色橡膠圓柱……六個物體逐一查,顏色、材質、大小三個屬性一一核對。結論是:不存在紫色橡膠的。
六次定位,六次判斷。每一步都有座標錨定著,不會出現「等等,剛才查到哪了」的情況。
論文中更多案例參考:
迷宮導航:別人擲硬幣,DeepSeek 真的在搜尋
論文測試了四種任務,迷宮是差距拉得最開的一項。
任務很直接:給一張迷宮圖,問從起點到終點有沒有路,有的話畫出來。迷宮有三種形狀:方格、圓環和蜂巢。
模型走迷宮的方式跟你小時候用鉛筆在紙上畫一樣:選一條岔路走到盡頭,走不通就退回來試另一條。唯一的差別是,它每走一步都在圖上標一個座標點,留下記錄。
論文裡展示了一個圓形迷宮的完整過程:模型先標出起點和終點的位置,然後開始探索。走了 18 步,中間兩次鑽進死胡同又退出來,最後繞出了一條通路,把整條路徑的座標點串起來輸出。
DeepSeek 還設計了一批陷阱迷宮:乍看之下有路,但中間某段被偷偷堵住了。這種迷宮考驗的是耐心,模型不能只看起點附近的走勢就下結論,得老老實實把能走的路都試一遍,才能確認走不通。
準確率對比:
- DeepSeek:66.9%
- GPT-5.4:50.6%
- Claude-Sonnet-4.6:48.9%
- Gemini-3-Flash:49.4%
- Qwen3-VL:49.6%
迷宮只有兩種答案:有路,或者沒路。隨機亂猜正好是 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近打轉,跟擲硬幣沒什麼兩樣。DeepSeek 的 66.9% 不算高,但它確實是在一步步地走,不是在瞎矇。
路徑追蹤:大家來找碴的終極版本
這個任務更直觀:一堆線纏在一起,每條線從一個標記通向另一個標記。你的耳機線從口袋裡掏出來是什麼樣子,畫面就是什麼樣子。題目問你:「C 這條線通向哪個終點?」
模型的做法是沿著線一路輸出座標點,像手指劃過紙面。線彎得厲害的地方,點就標得密;直線段則標得疏。人類用眼睛追一根線的時候也是這樣,彎道處慢下來,直線處一掃而過。
論文還加了一個加難版的測試:所有線的顏色和粗細都一樣。不能靠顏色區分是哪根線了,只能靠曲線本身的走勢連續性來判斷在交叉口該跟著哪條走。
- DeepSeek:56.7%
- GPT-5.4:46.5%
- Claude-Sonnet-4.6:30.6%
- Gemini-3-Flash:41.4%
Claude 的 30.6% 有點出乎意料。終點通常有四、五個選項,隨機猜也該有 20% 出頭,30.6% 只比瞎猜強一點點。可能它在這類純空間追蹤任務上,語言推理的慣性反而幫了倒忙。
怎麼教 AI 走迷宮不作弊
迷宮的訓練有一個現實問題:如果只看最終答對還是答錯來給分,模型很快就學精了——與其費勁搜尋還可能答錯,不如直接猜一個,反正認真走了答錯,跟沒走就答錯,分數一樣是零。
DeepSeek 的解決辦法是把過程也算進分數。每一步合法的探索都給分,穿牆則扣分,走得越遠越好。哪怕最後沒到終點,只要認真搜尋了大部分區域,也能拿到不錯的成績。這樣一來,模型就沒有偷懶的動機了。
對於無解的迷宮,要求更高:不能光說一句「走不通」,還得證明你確實把能到的地方都走遍了。搜尋覆蓋率也會算分。
一個彩蛋,三個局限
後訓練的數據裡沒有中文。但模型能用中文做視覺原語推理。
給它一張咖啡機的照片,用中文問「怎麼做拿鐵」,它用中文標註了蒸氣棒、奶壺、咖啡豆、拿鐵按鈕的位置座標,然後給出操作步驟。多語言能力是從基底模型那裡繼承來的,視覺原語的訓練並沒有把它破壞掉。
它還能將看圖和世界知識結合起來:給一張金門大橋的照片,問「這附近有 NBA 球隊嗎?」它先框出金門大橋,推理出這裡是舊金山,然後回答金州勇士隊。
它能理解幽默:一塊水果切面上的天然斑點恰好組成了一張憂鬱貓臉的模樣,模型能指出相似點在哪裡,並解釋為什麼好笑。
它還能做密室逃脫指導:框出高處的鑰匙、地板上的椅子、帶鎖的門,然後建議「把椅子搬到鑰匙下方 → 踩上去拿鑰匙 → 去開門」。
論文很坦誠地寫了目前做不到的事。
輸入的解析度有限制。ViT 輸出被卡在 81 到 384 個視覺資訊單元之間,遇到很精細的場景(比如數手指這種),座標精度還不夠。這可能就是前天實測時數手指翻車的直接原因。
目前需要特定的觸發詞才能啟動視覺原語模式。模型還不能自己判斷「這道題我該伸出手指來做」,得有人提醒它。
拓撲推理的泛化能力有限。在訓練過的迷宮類型上效果好,換一種新的空間結構就可能掉鍊子。陳小康在那條已刪除的推文裡也說了:
「We're still in the early stages; generalization in complex topological reasoning tasks isn't perfect yet, but we're committed to solving it.」
「我們還在早期階段,複雜拓撲推理任務的泛化能力還不完善,但我們會持續解決。」
前天實測時,DeepSeek 識圖模式展現的那些能力(追問發布者身分、聯想鯨魚 logo 的含義、自我糾正、給自己開「小型答辯會」),和這篇論文描述的思維方式一脈相承。它在腦中建立視覺錨點,圍繞錨點做推理,碰到矛盾就回溯修正。
而數手指數到頭暈,就是「引用鴻溝」的活生生展示。在手指交叉重疊的畫面裡,純靠語言描述去區分「從左數第三根」和「從右數第二根」,跟你自己不伸手指去數一群擠在一起的人道理一樣,注定會陷入混亂。
這篇論文指向的方向是:多模態推理的下一步進化關鍵在於「錨定機制」。DeepSeek 用 90 個資訊單元就打平了別人用上千 token 的效果,省下來的算力全拿去讓模型「一邊想、一邊指」。
解析度的軍備競賽可以緩一緩了,教會模型伸出手指,比給它配一副更貴的眼鏡還管用。
這隻鯨魚開了天眼之後,現在還長出了手指。66.9% 的迷宮準確率離完美還很遠,但至少它在認真走,不像隔壁那幾位在擲硬幣。