我們開始期待機器本身學會運行。
我們開始期待機器本身學會運行。
若你也曾想過:「AI 最終會成為一種電腦」,那本文就是寫給你的。
過去幾十年,電腦逐漸成為人類完成任務的重要媒介。最近幾年,AI 也開始進入這個位置:它不再只回答問題,還開始呼叫工具、操作介面、參與真實工作流程。
問題隨之變了:我們期待 AI 使用電腦,還是成為一種電腦?
Neural Computer(神經電腦,NC)討論的就是這個問題:模型能不能承擔一部分原本屬於機器運行本身的職責。
這裡說的 Neural Computer,不完全指 Alex Graves 那條 NTM / DNC 路線 [1][2],也不是在談某種新硬體(如最近的 Taalas),或某個具體應用。
本文更想討論的,是一台 learning machine 會不會從「使用電腦」走向「成為電腦」。
所以以下並不是 Neural Computer 的目標,比如:更強的 agent,電腦環境裡的 world model,額外在傳統電腦上再加一層智慧。
它關心的是,原本由程式棧、工具鏈和控制層承擔的那部分系統職責,會不會逐漸進入模型實際依賴的 Runtime。
這個念頭,我想在很多腦海裡浮現過,我先把它叫作「前共識」。
大致觀點:
Neural Computer(NC)想討論的是,模型會不會開始承擔一部分原本屬於機器本身的運行職責。
傳統電腦圍繞顯式程式,Agent 圍繞任務,World Model 圍繞環境,而 NC 圍繞 Runtime。
Completely Neural Computer(完備神經電腦,CNC)是 NC 的完備態。
當前的一些原型,已經開始顯示出早期 Runtime 原語的雛形。
如果能力開始進入 Runtime,並能在那裡被安裝、複用和治理,那麼 Neural Computer 可能會重新定義「電腦」這個詞。
論文網址:
https://arxiv.org/abs/2604.06425
GitHub 網址:
https://github.com/metauto-ai/NeuralComputer
為什麼是現在:「一種新的機器形態」正在出現
今天有三件事正在同時發生。
第一,agent 變得越來越會做事。
從 2023 年的 MetaGPT(「古早」 Coding Agents 之一) [3] 只能勉強寫出幾百行程式碼,到 2025 年 Cursor、Codex 和 Claude Code 已經成為程式設計師生產力標配工具,再到今天 OpenClaw [4] 真正走入大眾視野。
大家關心的,已經不是 agent 偶爾把一件事做成,而是它能不能進入真實生產和日常生活,穩定處理各類事務。
對 agent 來說,現在大家更關心的瓶頸是:1)長時程任務怎麼保持穩定;2)能力怎麼沉澱下來;3)流程怎麼持續複用。
眼下的解決辦法,主要還是在 agent 的 scaffold(或 harness)這一側繼續做加法:用更強的記憶、更長的工作流程和更穩的行動閉環,盡可能提高任務完成率。
再往前走,一條更激進的方向是遞迴式自我改進:模型訓練下一代模型,agent 持續改寫自己 [5]。
〓Agent 正在從原型實驗,走向專業生產力工具,再走向大眾日常基礎設施。[3][4]
第二,world model 越來越擅長建模動態環境。
最近一年,從 GameNGen、Genie 2/3 等項目的世界模型實驗,越來越多人開始相信:模型不僅能表示當前狀態,還能在內部維持一個關於「下一步會發生什麼」的動態結構。
它本來就模擬環境演化;現在更值得注意的是,這種能力已經進入一些真實閉環。
這一點在現實裡那些難以低成本、反覆採集的邊角案例上尤其明顯。在這些場景裡,rollout 正被直接用進預測、規劃、控制和訓練。
沿著這條線看,從 Jürgen Schmidhuber 在 1990 年提出的 Making the World Differentiable [6],到 2018 年的《World Models》[7],再到現在 Waymo 把 world model 用進自動駕駛模擬與訓練 [8][9],這條路線已經開始進入自動駕駛模擬、訓練和互動式環境生成這些具體系統環節。
這也讓 world model 不再只是「表示世界」,而開始朝「展開世界」和「介入世界」走。
對 world model 來說,它更擅長的是先生成若干可能的未來狀態,再根據這些 rollout 去做規劃、篩選和行動閉環。
今天這條路線已經分出幾種明顯方向:在自動駕駛和 physical AI 裡,它主要扮演模擬與合成資料引擎的角色,用來補足真實世界裡昂貴、危險或稀缺的資料。
例如 Waymo World Model 和 NVIDIA Cosmos [8][10];在 spatial intelligence 裡,它追求可生成、可進入、可持續互動的 3D 世界,例如 World Labs 的 Marble [11]。
在更偏即時互動世界的方向上,生成模型已經從靜態內容生成走向可控、可互動、可探索的環境生成,代表性例子包括 GameNGen 對 DOOM 的即時神經模擬 [12],以及 Google DeepMind 的 Genie 2 / Genie 3 [13][14]。
這些方向雖然已經分化,但本質還是在解決同一類問題:怎樣把環境隨時間、動作和約束而演化的規律,學進系統內部。
〓從 1990 到 2018 再到現在:world model 從早期可微世界建模設想,走向 Waymo World Model 代表的自動駕駛模擬與訓練 [6][7][8][9]
第三,傳統電腦在 AI 時代的結構性摩擦越來越明顯。
今天越來越多任務不再是確定性求解,而是開放式要求;不再是一次性輸入輸出,而是長時程互動;不再是明確程式,而是帶著模糊目標、需要持續調整的做事過程。
也正因為這樣,傳統軟體棧開始顯得笨重。傳統軟體棧固然有穩定優勢,但在許多以自然語言、示範、介面操作和弱約束為主的場景中,組織和驅動這些任務的成本已經越來越高。
傳統電腦本身也在為 AI 重寫底座。晶片、編譯器、記憶體系統、軟體棧都在變得更 model-friendly。
但這些變化多數仍然發生在既有計算範式內部:它們讓舊機器更適合 AI,卻沒有改寫「機器是什麼」。
在這些變化裡,像 Taalas 這樣的路線把事情又往前推了一步,開始把特定模型做成一種部署單元:模型不再只是跑在機器上的負載,而是在逼近「按模型組織硬體」這條線 [15]。
但至少今天,這還只是部署層的變化,還談不上通用機器形態。
這三條變化其實指向的是同一個問題。
如果 agent 越來越會做事,world model 越來越會推演,傳統電腦也在為 AI 重寫底座,那麼會不會出現一種新的 Runtime,把執行、rollout 和能力沉澱收進同一台 learning machine?
從人和機器的關係看,這裡對應著一次主關係的遷移:在傳統計算裡,人主要和電腦互動;到了 agent 時代,人更多是和 agent 互動,再由 agent 去呼叫電腦把事情做成。
world model 在這裡更接近一個並行的預測層:它既可以服務於人,也可以服務於 agent,但本身不負責把事情做成。
再往前推,NC 要改的是機器本身:它試圖把今天分散在電腦、agent 和 world model 之間的職責,收攏到同一台 learning machine 內部。
那時,人面對的就不再只是「agent 代替自己呼叫電腦」,而是直接使用這樣一台神經電腦。
〓人機關係如何變化:過去更像是 Human → Computer;到了 agent 時代,關係更像 Human → Agent → Computer,而 World Model 更多作為並行的預測層出現;如果 NC 成立,人將更直接面對一台 Neural Computer。
這也意味著,互動本身會開始帶上「程式設計」的意味。
今天,自然語言指令、鍵鼠軌跡、螢幕變化和任務回饋,大多只是過程日誌;在 NC 的設定裡,它們會變成塑造未來行為的材料。
今天我們主要透過程式碼安裝能力;以後,示範、互動軌跡和約束本身,也可能成為能力進入 Runtime 的入口。
什麼是 Neural Computer,什麼才算它真正成立?
先看這張表:它把傳統電腦、Agent、World Model 和 Neural Computer 放到同一把「尺規」上來比較。
看完這張表,區別和聯繫就很清楚了:它們各自圍繞什麼組織,真實性來源落在哪裡,又分別承擔什麼職責。
接下來可以直接設想:如果 NC 已經存在,人會怎麼使用它?
對傳統電腦,你安裝的是軟體;對 agent,你描述的是任務;對 NC,你做的更接近給機器安裝能力,並期待這些能力以後繼續留在機器裡。
正因為如此,這裡說的 Runtime,不是某個軟體元件,而是系統靠什麼持續成為同一台機器的那一層:什麼會留下來,什麼推動狀態繼續往前走,什麼輸入真正改變機器,什麼變化已經等於把機器重寫了一次。
對 NC 來說,關鍵不在於再疊一層外部工具,而在於能力和狀態能不能真正進入同一個 learned runtime。
如果它成立,機器會長得像什麼?
第一,它未必會繼續沿著今天這條 foundation model 路線發展下去。
今天更自然的想法,是把模型繼續往 1B - 10T 級的 dense / MoE foundation model 推大、推強;很多工作也確實沿著這條路在前進。
但在我的想法裡,NC 真正成熟以後,底座更可能往另一邊走:10T - 1000T 級,更稀疏、更可定址、帶一點電路氣質。
未來的 CNC 也許不是一團越來越大的連續表徵,而會更像一套可路由、可組合、局部更容易檢查的機器底座。
它未必模仿動物感知或人腦,反而可能更接近一種帶有 NAND 氣質的神經網路:離散、稀疏、局部可驗證。
至少目前,這條路還沒被系統展開。
OpenAI 最近在 weight-sparse transformers 上做的一些工作,只能算其中一個訊號;更重要的是,這背後其實是 AI 裡一條更老、也更豐富的思路,尤其在強化學習裡,稀疏結構、局部分工和路由機制一直都和系統如何學習、如何行動直接相關 [16]。
第二,它也未必總靠整體改參數來升級自己。
NC 指向的則是另一種進化方式:靠 Runtime 的自程式設計與持續互動,讓機器沿內部能力結構持續自進化。
使用者輸入不再只是觸發一次性行為,而會逐漸安裝、呼叫、組合並保留可複用的神經例程,甚至形成以後還能繼續呼叫的內部執行器。
至少在功能分工上,它更接近傳統電腦裡的「記憶體」,而不是處理器:升級未必意味著重寫整台機器的本體,也可能只是把這些新結構穩定寫進一層可定址、可呼叫、可保留的內部狀態。
順著這條路往前走,升級也不再只是「換一個更大的模型」,而更像是在機器內部持續安裝新元件。
若干年前的 NPI 和 HyperNetworks,也能看作相似但還不完整的早期思路:前者試圖把複雜程式拆成可呼叫、可組合的子程式 [17];後者則提示,機器甚至可能繼續生成下游神經模組,去擴展自己的能力邊界 [18]。
當然,我認為野心可以更大一點,一個夠強的 Neural Computer,完全可能直接生成新的(子)神經網路,再把它們以可插拔的方式掛進自身內部,像今天安裝或解除安裝軟體一樣自然,只是這一次省掉了手寫程式碼和編譯這一層中介。
第三,它還可能把 world model 式的 rollout 逐漸收進 Runtime 裡。
到那時,rollout 會慢慢變成機器的日常機制,也會變成這種自程式設計和自進化的一部分。
人類可以給出輸入、期待的輸出(GT),也可以只提前寫好評估指標;甚至在某一輪裡什麼都不再給,Runtime 也可以在內部持續自我對弈、自測、篩選和壓縮候選做法,再把有效改進沉澱成下一輪能力更新。
理想狀態下,人去睡覺時,機器還在內部完成評估、試誤和迭代。真正留下來的,不只是更多上下文,而是內部能力結構本身已經發生了變化。
當然,這一切的前提不是放任系統偷偷變化,而是更新路徑本身可被治理。
這樣看,NC 作為一種機器形態的輪廓就比較清楚了。關鍵在於,能力有沒有真正進入 Runtime,並在那裡被安裝、複用、執行和治理。
CNC 說的,就是這件事做成之後的樣子(完備態)。
按原論文的定義,一個 NC 實例只有在同時滿足四個條件時,才可以算作 CNC:它必須是 圖靈完備、通用可程式設計、除非被顯式重寫否則保持 行為一致,並體現 NC 相對傳統電腦的架構與程式設計語意。
下面這張表,是對原論文這四條要求的一個更直白的總結。
論文實現的原型:它證明了什麼,還缺什麼
按我的判斷,Neural Computer 真正成形,大概還要三年。所以,和我真正設想的 Neural Computer 相比,我們論文裡的工作還只是很早的一步。
放在今天,我認為最順手的統一載體,還是這類面向影片生成和 world model 的神經網路;要先把像素、動作和時間 rollout 放進同一個端對端原型裡,它們也是最快的一條路。
我們現在藉它們驗證的,只是 NC 的部分關鍵能力。它們更像過渡性的實現參考,而不是 NC 的最終結構;如果真要走到 CNC,最後仍然需要一次更徹底、自底向上的重建。
3.1 CLIGen (General):以假亂真的「電腦模仿遊戲」
先看終端渲染能不能站穩:配色、游標、捲動、TUI 和整體節奏感。
先看第一組實驗生成出來的結果。如果不認真看,它們已經有點以假亂真。對 CLIGen (General) 來說,這裡首先能看到的是,影片模型已經能把終端渲染做到足夠逼真。
主流影片模型本來就不是為這種文字密集、強依賴離散佈局的電腦場景訓練的;但經過進一步訓練以後,「電腦模仿遊戲」確實已經可以做出來。
這一組先學到的,是終端最外層的那些東西:配色怎麼變,游標怎麼閃,視窗比例穩不穩,長日誌怎麼滾,全螢幕 TUI、進度條和狀態列怎麼出現。
最先站穩的,也是終端這層表象和節奏。藉前文的說法,這裡最先被學到的,還是 Runtime 的外觀。
放回 2025 年 9 月看,這個實驗結果是讓人驚喜的。
只用約 1,100 小時富有雜訊的終端資料集,就把原本幾乎不懂電腦介面、連稍微小一點的文字都很難生成的 Wan2.1 [31],拉到了能穩定生成終端表示的程度,對常見指令、回顯和日誌形態也已經有了相當可觀的淺層對齊。
對影片生成來說,這種文字密集、變化快、帶閃爍、又幾乎沒有自然動態的場景,本來就是最難的一類;但這個結果確實超出了當時不少人的預期。
這裡用的還是終端領域的一般影片,風格很多,場景也很雜。終端渲染先站穩了,後面鼓勵我們去嘗試電腦裡那些更硬的東西:記憶、推理、程式設計和執行。
3.2 REPL 和 Math:它不再只「畫終端」
這裡關注的是更硬的執行結構:輸入、Enter、回顯、局部編輯和狀態延續。
終端渲染的初步實驗之後,更有趣的問題是:終端能不能被當成一個能被動作穩定推動的局部機器來測。
敲一個指令,緩衝區會不會往前走;按一次 Enter,回顯會不會跟著出來;輸錯、刪改、重打之後,狀態還能不能接著延續。REPL 和 Math 在這裡其實是同一件事的兩個側面:模型到底有沒有開始學到一點終端裡的狀態轉移規律。
現在,重點轉到指令運行的因果結構上。這一組訓練資料來自更乾淨、更可重複的腳本軌跡:我們自己透過腳本和 Docker 環境去生成這批終端影片,讓輸入、Enter、回顯、報錯和局部編輯都落在一個更穩定的終端環境裡。
從這組結果裡已經能看出,模型學到了一些電腦終端最基本的運行規律。
像 pwd、date、whoami、echo $HOME、env | head -n 5 這類非常簡單的指令,輸入、Enter、回顯和結果展示已經可以做得相當接近真實;不同指令該出現什麼樣的輸出形態,也和對應的終端場景對上了。
和上一部分實驗相比,指令本身已經能推動字元更新、回顯生成和局部狀態變化,終端也會按照自己的運行方式展開。
沿著這條線繼續往前走,模型在簡單數學場景裡其實也已經摸到了一些東西,但推理能力本身還沒有真正解決。
到了兩位數加法這種最基礎的算術層,當前模型依然很難穩定算對。
這當然有資料量的問題:我們還沒給模型足夠多、足夠硬的訓練資料去逼出穩定推理;但也有另一種更根本的可能性:用當前這類基於 DiT 的影片模型去承載穩定推理,本身就可能是個偽命題。
眼下更穩妥的判斷是,終端執行這一層已經開始立穩,符號推理這一層還沒有過關。
3.3 GUIWorld:介面操控也開始成立
最後看動作能不能真實推動介面狀態:點擊、懸停、輸入和視窗回饋能不能閉合。
在 CLI 階段,我們已經大致看清楚了:影片模型的渲染能力很強,基礎的記憶和執行能力也開始出現,但最底層的符號推理還不夠好。
到了 GUIWorld,重點又變成了:介面狀態會不會被動作推著走。
GUIWorld 直接把問題從 CLI 推到了 GUI。
走到這裡,問題已經不再主要是文字和指令,而是真實的鍵盤滑鼠動作:滑鼠要落點,懸停要出回饋,點擊之後按鈕、下拉選單、強制回應視窗和輸入框都要真的變狀態,鍵盤輸入也要一幀一幀把介面往前帶。
對應的資料已經是一套相當完整的互動架構:我們先在 Ubuntu 22.04 的 XFCE4 桌面裡固定了 1024×768、15 FPS 的環境,再把整個桌面運行、錄製和動作重播流程都搭了起來,這樣每一步點擊、懸停、輸入和介面變化都能被穩定記錄下來。
資料分成三塊:約 1000 小時的隨機慢速、約 400 小時的隨機快速,以及約 110 小時由 Claude CUA 驅動的真實互動目標導向軌跡。
前兩者試探的是,滑鼠加速度、停頓、懸停、視窗切換這些開放世界雜訊會怎樣影響模型;後者則給出更清晰的動作—回應對,看看模型是否學會:做了這個動作之後,介面能不能相應觸發合適的改變。
模型這邊沒有只試一種動作注入方式,而是並排做了四個版本。它們的核心區別不在於「有沒有加入動作」,而在於動作到底在多深的層裡進入主幹、參與狀態演化。
論文裡的圖 7 正好把這四種方式畫得很清楚:
〓圖 7 四種把 GUI 動作注入擴散Transformer的方式。這裡對應的就是上面說的模型一到模型四。
從最終實驗結果來看(這裡先省略細節):四個模型設計裡,模型四的綜合結果最好。
這組結果表明,對於 GUI 這種細粒度、強時序、強局部互動的環境,把動作直接打進區塊內部,最容易讓模型把「動作之後介面怎樣繼續走」學進主幹裡。
與此同時,110 小時的監督式資料明顯優於約 1400 小時隨機資料;顯式游標視覺監督也比單純座標監督強得多。
合在一起看,GUIWorld 最直白的結論是:GUI 這條線最缺的是更硬的動作語意、更明確的狀態轉移,以及把游標當成視覺物件來監督。
雖然一開始很少有人看好影片模型能處理這種高度離散、文字密集、動作敏感的電腦場景,但只要任務設計和資料組織得當,它在介面渲染、頁面切換、短時狀態延續、局部互動、執行回顯,甚至一些非常初步的工作記憶上,都已經能給出很多有意義的結果。
換句話說,影片模型也許離終局還很遠,但作為早期原型的載體,已經足夠把不少原本抽象的神經電腦問題先擺到檯面上。
3.4 從原型 NC 到 CNC,還差什麼
把第 2 節那張 CNC 條件表重新拿回來,當前原型的大致結論已經比較清楚了:圖靈完備 只觸到邊緣,通用可程式設計 還只是入口出現,行為一致 只在受控環境裡局部成立,機器原生語意 則方向比結論更清楚。
NC 要解決的不是把 agent、world model 和傳統電腦簡單疊加,而是把今天分散在這些物件裡的部分職責,逐步收回同一個 learned runtime。
當前原型真正重要的地方,不是它已經逼近終局,而是它把決定 CNC 能不能成立的幾道硬門檻提前暴露出來。
如果 Neural Computer 成立,軟體、硬體和「程式」都會改變
如果把關係再說清楚一點,Neural Computers 首先是一種對下一代電腦的判斷。
但我有預感,它未來最強的競爭壓力,會來自具備強記憶、強工具呼叫和持續上線能力的個人化超級 agent。
下面這張表把這三者並排放在一起看。
快速看表:先看「你實際得到的東西」「經驗怎麼沉澱」「安裝的是什麼」。
如果 CNC 真的成立,最先改變的會是交付物件和系統的組織方式。
今天被裝進去的還是軟體、工具、工作流程和記憶條目;到了 NC 這條路上,慢慢被裝進去的,更像是能力本身。
程式碼當然還會在,但它不再是唯一入口;說明、示範、操作軌跡和約束,也會開始直接承擔「裝能力」這件事。
「程式」這個詞的含義也會跟著變化:它不再只是一段程式碼,而更像一項能被安裝、組合、版本化和持續更新的能力物件。
再往後,變化會一路傳到系統棧和機器邊界本身。軟體怎麼搭、硬體怎麼配、更新怎麼治理、問題怎麼追蹤,都會越來越圍繞同一台持續運行的機器重新組織。
手機、瀏覽器、IDE、終端這些入口還會在,但會越來越像接入同一台機器的不同視窗。
到最後,被改寫的不只是某個工具棧,而是「電腦」這個詞本身的含義。
聲明與致謝:本部落格內容與觀點代表大部分 Neural Computer 論文的初衷,以及 Mingchen Zhuge 的個人觀點。
感謝 Wenyi Wang、Haozhe Liu、Shuming Liu、Yuandong Tian 與 Dylan R. Ashley 提供的審閱意見。
文中部分圖示與素材引自原始論文及相關公開資料。
如果你想引用這篇內容,可以直接使用下面的 arXiv 條目或部落格條目。
@misc{zhuge2026neuralcomputers, title = {Neural Computers}, author = {Mingchen Zhuge and Changsheng Zhao and Haozhe Liu and Zijian Zhou and Shuming Liu and Wenyi Wang and Ernie Chang and Gael Le Lan and Junjie Fei and Wenxuan Zhang and Yasheng Sun and Zhipeng Cai and Zechun Liu and Yunyang Xiong and Yining Yang and Yuandong Tian and Yangyang Shi and Vikas Chandra and J{\"u}rgen Schmidhuber}, year = {2026}, eprint = {2604.06425}, archivePrefix = {arXiv}, primaryClass = {cs.LG}, url = {https://arxiv.org/abs/2604.06425}}@online{zhuge2026neuralcomputerblog, author = {Mingchen Zhuge}, title = {Neural Computer:一種新的機器形態,正在出現}, year = {2026}, month = feb, day = {7}, url = {https://metauto.ai/neuralcomputer/index_cn.html}, note = {Research essay}, urldate = {2026-04-06}}