大型語言模型(LLM)能拿下國際數學奧林匹亞(IMO)金牌,卻算不對小學生的基礎數學。
這個矛盾長期困擾著整個 AI 領域。
現在,有人提出了一個全新的解法——不再是掛載外部工具,而是直接在 Transformer 內部打造一台電腦。
這項突破連被譽為「AI 之父」的 Geoffrey Hinton(AK 大神)都驚呼連連。
大模型的致命短板
當前最先進的語言模型在數學推理上的表現令人印象深刻——GPT 類系統已能達到國際數學奧林匹亞金牌水準,也能處理開放性科學難題。
但有一塊頑固的短板始終存在:純計算任務。
基礎加法會出錯。簡單數獨不靠外力就解不了。Sudoku-Bench 等基準測試結果顯示,大模型在無輔助情況下的解題率極低。
目前的兩條繞路方案是:
工具調用:模型撰寫程式碼,由外部解釋器執行,再把結果塞回來。這雖然有效,但執行本身發生在模型外部。
智能體編排:用外部迴圈保存中間狀態、分解任務、反覆調用模型。本質上是給模型外面套了一個狀態機。
一個類比能說清楚問題的本質:人類不會飛,造飛機也沒有改變這一事實,只是造了一台替我們飛的機器。
今天的大模型面對計算任務,處境完全一樣——能描述演算法、能協調工具去跑演算法,但自己無法執行演算法。一個不能計算的系統,無法真正理解什麼是計算。
在 Transformer 裡造電腦
來自麻省理工學院(MIT)的博士研究員 Christos Tzamos 及其研究團隊,選擇正面突破。
他們的核心方案:在 Transformer 內部實現一台現代 RAM 電腦,並將任意 C 程式碼編譯成模型可直接執行的 token 序列。
具體做法是在 Transformer 權重裡實現了一個WebAssembly 解釋器。WebAssembly 是一種低層級指令集,C/C++ 等語言可以直接編譯到它。每條指令最多映射為 5 個 token。
執行 3+5 的過程是這樣的:模型生成 WebAssembly 指令序列,然後切換到快速解碼模式,在同一個 Transformer 內部逐 token 執行程式,輸出完整的執行軌跡:
03 00 00 00 commit(+1,sts=1,bt=0)
05 00 00 00 commit(+1,sts=1,bt=0)
08 00 00 00 commit(-1,sts=1,bt=0)
out(08)
halt堆疊增長、加法觸發、結果輸出、機器停機——全部在模型自己的輸出流裡完成,沒有任何外部調用。
工具調用是不透明的:模型交出控制權,收到一個黑盒答案。模型內執行是透明的:每個中間步驟都出現在軌跡裡,模型從未離開自己的解碼迴圈。
數獨:最難的那道題也解開了
數獨是長鏈精確計算的另一個壓力測試。
神經網絡方法在簡單或隨機數獨上表現不錯,但碰到難題直接崩潰。通常的解釋是:自回歸模型逐 token 提交答案、無法修正早期錯誤,天然不適合約束滿足問題。
這項工作給出了不一樣的答案:問題不在於自回歸範式本身,而在於解难題需要極長的執行軌跡,而標準注意力機制讓長上下文生成代價過高。
他們的系統在 Transformer 內部執行了一個編譯好的數獨求解器,達到了100% 準確率,包括世界公認最難的 Arto Inkala 數獨——在 3 分鐘內給出正確答案。
保證是普適的:只要編譯進去的求解器本身是正確的,Transformer 的執行結果就是正確的。沒有學習出來的啟發式猜測,沒有「模型建議答案」和「外部系統驗證答案」之間的落差。
核心技術突破:指數級提速的注意力機制
方案要真正成立,還需要解決一個更深的工程障礙。
Transformer 作為執行器有一個結構性缺陷:標準自回歸解碼讓每一步都需要與不斷增長的歷史序列交互。真實電腦更新緊湊狀態,每條指令的計算量近似恆定。Transformer 生成第 t 個 token 時,還需要與長度為 t 的字首交互——KV 快取節省了重新計算的開銷,但掃描快取的代價仍然隨序列長度線性增長。
結果是:每步的計算量隨軌跡長度線性增長,生成 t 個 token 的總代價是二次方的。這是 Transformer 的經典瓶頸。
研究團隊的突破在於:他們發現,在執行軌跡這種結構化場景下,Transformer 的注意力機制可以走一條完全不同的解碼路徑。
關鍵限制條件:將注意力頭的維度限制為 2 維。
這一限制讓事情發生了質變。
在 2 維情況下,注意力查詢可以用幾何的語言重新表述:所有歷史 token 的鍵向量構成平面上的一個點集,每次查詢等價於在這個集合上做一次最大內積檢索——即在給定方向上找凸包上最遠的點。這是計算幾何中的經典問題,有對數時間複雜度的數據結構可以解決。
於是,標準解碼中的線性掃描(對每個鍵逐一打分)被替換為凸包查詢(維護一個幾何數據結構,每次檢索只需訪問極少數點)。
效果是:每步解碼從 Θ(t) 降到 O(log t)。
實測結果中,HullKVCache 與標準 KVCache 的每步耗時隨序列長度的增長曲線,差距極為顯著。
整個系統在 CPU 上的吞吐量超過每秒 3 萬 token,足以在數百萬步內持續執行程式。
2 維夠用嗎?
這個限制會不會太強?
研究團隊的回答是:用於圖靈完備性,2 維注意力已經足夠,並在論文中證明了這一點。
模型本身是完全標準的 PyTorch Transformer,沒有任何客製化注意力核心,沒有稀疏掩碼。d_model=36,n_heads=18,每頭恰好 2 維,7 層網絡。特別之處只在於權重本身。
整個模型仍然可以有任意數量的層、任意數量的頭和任意大小的嵌入維度,2 維的約束只作用於每個頭內部的鍵值對,換來的是可以有更多的頭。
對於 Softmax 注意力,近似方案同樣可行:通過檢索 top-k 個鍵、只對這些鍵做 softmax,可以達到 O(k + log n) 的解碼代價。同樣的思路也可以推廣到三維頭(基於三維凸包),儘管更高維度的效率會迅速下降。
接下來能做什麼
這項工作打開的不只是一個模型優化方向,而是軟體與神經網絡之間的一個新介面。
混合系統:讓語言模型負責規劃和推理,內部執行引擎負責運行演算法。兩者之間的邊界不是外部 API 調用,而是同一個前向傳播過程的不同路徑。由於執行軌跡是前向傳播的一部分,整個過程是可微的——梯度可以傳播穿過計算本身,這與外部工具有本質區別。
程式編譯進權重:目前的原型是在權重裡學會了一個解釋器。但研究團隊構建的編譯機制可以走得更遠——任意程式可以直接編譯進 Transformer 權重,而不需要以 token 序列的形式表示。這意味著權重本身可以成為軟體的部署目標。
超越梯度下降的訓練:如果邏輯可以被編譯進權重,梯度下降就不再是修改模型的唯一方式。權重編譯提供了另一條路徑,可以直接向網絡中注入結構、演算法和可靠性保證。
像軟體庫一樣生長的 AI 系統:現代軟體生態通過累積模組、抽象和可複用組件不斷演化。AI 系統內部可能發生類似的過程——新的計算能力被增量式地添加進模型的內部執行引擎。
研究團隊的最終圖景是:未來的 AI 系統不只是使用軟體,而是包含軟體——把學習到的表示和編譯好的演算法整合進同一個計算基底。在那個世界裡,軟體本身成為模型的一部分。
詳細資訊請看: