太狂了！MIT 團隊在 Transformer 內部打造電腦，LLM 從此無需外部工具？

大型語言模型（LLM）能拿下國際數學奧林匹亞（IMO）金牌，卻算不對小學生的基礎數學。

這個矛盾長期困擾著整個 AI 領域。

現在，有人提出了一個全新的解法——不再是掛載外部工具，而是直接在 Transformer 內部打造一台電腦。

這項突破連被譽為「AI 之父」的 Geoffrey Hinton（AK 大神）都驚呼連連。

大模型的致命短板

當前最先進的語言模型在數學推理上的表現令人印象深刻——GPT 類系統已能達到國際數學奧林匹亞金牌水準，也能處理開放性科學難題。

但有一塊頑固的短板始終存在：純計算任務。

基礎加法會出錯。簡單數獨不靠外力就解不了。Sudoku-Bench 等基準測試結果顯示，大模型在無輔助情況下的解題率極低。

目前的兩條繞路方案是：

工具調用：模型撰寫程式碼，由外部解釋器執行，再把結果塞回來。這雖然有效，但執行本身發生在模型外部。

智能體編排：用外部迴圈保存中間狀態、分解任務、反覆調用模型。本質上是給模型外面套了一個狀態機。

一個類比能說清楚問題的本質：人類不會飛，造飛機也沒有改變這一事實，只是造了一台替我們飛的機器。

今天的大模型面對計算任務，處境完全一樣——能描述演算法、能協調工具去跑演算法，但自己無法執行演算法。一個不能計算的系統，無法真正理解什麼是計算。

在 Transformer 裡造電腦

來自麻省理工學院（MIT）的博士研究員 Christos Tzamos 及其研究團隊，選擇正面突破。

他們的核心方案：在 Transformer 內部實現一台現代 RAM 電腦，並將任意 C 程式碼編譯成模型可直接執行的 token 序列。

具體做法是在 Transformer 權重裡實現了一個WebAssembly 解釋器。WebAssembly 是一種低層級指令集，C/C++ 等語言可以直接編譯到它。每條指令最多映射為 5 個 token。

執行 3+5 的過程是這樣的：模型生成 WebAssembly 指令序列，然後切換到快速解碼模式，在同一個 Transformer 內部逐 token 執行程式，輸出完整的執行軌跡：

03 00 00 00  commit(+1,sts=1,bt=0)
05 00 00 00  commit(+1,sts=1,bt=0)
08 00 00 00  commit(-1,sts=1,bt=0)
out(08)
halt

堆疊增長、加法觸發、結果輸出、機器停機——全部在模型自己的輸出流裡完成，沒有任何外部調用。

工具調用是不透明的：模型交出控制權，收到一個黑盒答案。模型內執行是透明的：每個中間步驟都出現在軌跡裡，模型從未離開自己的解碼迴圈。

數獨：最難的那道題也解開了

數獨是長鏈精確計算的另一個壓力測試。

神經網絡方法在簡單或隨機數獨上表現不錯，但碰到難題直接崩潰。通常的解釋是：自回歸模型逐 token 提交答案、無法修正早期錯誤，天然不適合約束滿足問題。

這項工作給出了不一樣的答案：問題不在於自回歸範式本身，而在於解难題需要極長的執行軌跡，而標準注意力機制讓長上下文生成代價過高。

他們的系統在 Transformer 內部執行了一個編譯好的數獨求解器，達到了100% 準確率，包括世界公認最難的 Arto Inkala 數獨——在 3 分鐘內給出正確答案。

保證是普適的：只要編譯進去的求解器本身是正確的，Transformer 的執行結果就是正確的。沒有學習出來的啟發式猜測，沒有「模型建議答案」和「外部系統驗證答案」之間的落差。

核心技術突破：指數級提速的注意力機制

方案要真正成立，還需要解決一個更深的工程障礙。

Transformer 作為執行器有一個結構性缺陷：標準自回歸解碼讓每一步都需要與不斷增長的歷史序列交互。真實電腦更新緊湊狀態，每條指令的計算量近似恆定。Transformer 生成第 t 個 token 時，還需要與長度為 t 的字首交互——KV 快取節省了重新計算的開銷，但掃描快取的代價仍然隨序列長度線性增長。

結果是：每步的計算量隨軌跡長度線性增長，生成 t 個 token 的總代價是二次方的。這是 Transformer 的經典瓶頸。

研究團隊的突破在於：他們發現，在執行軌跡這種結構化場景下，Transformer 的注意力機制可以走一條完全不同的解碼路徑。

關鍵限制條件：將注意力頭的維度限制為 2 維。

這一限制讓事情發生了質變。

在 2 維情況下，注意力查詢可以用幾何的語言重新表述：所有歷史 token 的鍵向量構成平面上的一個點集，每次查詢等價於在這個集合上做一次最大內積檢索——即在給定方向上找凸包上最遠的點。這是計算幾何中的經典問題，有對數時間複雜度的數據結構可以解決。

於是，標準解碼中的線性掃描（對每個鍵逐一打分）被替換為凸包查詢（維護一個幾何數據結構，每次檢索只需訪問極少數點）。

效果是：每步解碼從 Θ(t) 降到 O(log t)。

實測結果中，HullKVCache 與標準 KVCache 的每步耗時隨序列長度的增長曲線，差距極為顯著。

整個系統在 CPU 上的吞吐量超過每秒 3 萬 token，足以在數百萬步內持續執行程式。

2 維夠用嗎？

這個限制會不會太強？

研究團隊的回答是：用於圖靈完備性，2 維注意力已經足夠，並在論文中證明了這一點。

模型本身是完全標準的 PyTorch Transformer，沒有任何客製化注意力核心，沒有稀疏掩碼。d_model=36，n_heads=18，每頭恰好 2 維，7 層網絡。特別之處只在於權重本身。

整個模型仍然可以有任意數量的層、任意數量的頭和任意大小的嵌入維度，2 維的約束只作用於每個頭內部的鍵值對，換來的是可以有更多的頭。

對於 Softmax 注意力，近似方案同樣可行：通過檢索 top-k 個鍵、只對這些鍵做 softmax，可以達到 O(k + log n) 的解碼代價。同樣的思路也可以推廣到三維頭（基於三維凸包），儘管更高維度的效率會迅速下降。

接下來能做什麼

這項工作打開的不只是一個模型優化方向，而是軟體與神經網絡之間的一個新介面。

混合系統：讓語言模型負責規劃和推理，內部執行引擎負責運行演算法。兩者之間的邊界不是外部 API 調用，而是同一個前向傳播過程的不同路徑。由於執行軌跡是前向傳播的一部分，整個過程是可微的——梯度可以傳播穿過計算本身，這與外部工具有本質區別。

程式編譯進權重：目前的原型是在權重裡學會了一個解釋器。但研究團隊構建的編譯機制可以走得更遠——任意程式可以直接編譯進 Transformer 權重，而不需要以 token 序列的形式表示。這意味著權重本身可以成為軟體的部署目標。

超越梯度下降的訓練：如果邏輯可以被編譯進權重，梯度下降就不再是修改模型的唯一方式。權重編譯提供了另一條路徑，可以直接向網絡中注入結構、演算法和可靠性保證。

像軟體庫一樣生長的 AI 系統：現代軟體生態通過累積模組、抽象和可複用組件不斷演化。AI 系統內部可能發生類似的過程——新的計算能力被增量式地添加進模型的內部執行引擎。

研究團隊的最終圖景是：未來的 AI 系統不只是使用軟體，而是包含軟體——把學習到的表示和編譯好的演算法整合進同一個計算基底。在那個世界裡，軟體本身成為模型的一部分。

詳細資訊請看：

https://www.percepta.ai/blog/can-llms-be-computers