GPT-5.2 連續熬夜 7 天，300 萬行程式碼打造出 Chrome 級瀏覽器

新智元報導

編輯：定慧艾倫

【新智元導讀】一個大模型持續寫程式，能寫多久？一小時？一天？還是像大部分 AI 程式設計工具那樣，完成一個任務就結束對話？Cursor 的 CEO Michael Truell 決定搞一次極限壓力測試！

Michael Truell 讓 Cursor 中的 GPT-5.2 連續運行了整整一週。

不是一小時，不是一天，而是不眠不休，晝夜不停，168 小時持續寫程式。

結果？

300 萬行程式碼。數千個檔案。

AI 完全從零構建出一個全新瀏覽器。

而且，還是 Chrome 那種瀏覽器。

HTML 解析、CSS 佈局、文字渲染、還有一個自研的 JavaScript 虛擬機——全是 AI 自己寫的。

Michael Truell 輕描淡寫地發了條推文：它基本能跑！簡單的網頁能快速且正確地渲染出來。

一個模型究竟能跑多久

傳統的 AI 程式設計工具，比如 Github Copilot 和早期其他的 IDE，都是一問一答模式。

對話長度有限，上下文有限，任務複雜度有限。

後來出現了所謂的 Agentic 程式設計——Claude Code、Cursor Agent、Windsurf 等工具讓 AI 可以自主執行多步任務，讀取檔案、執行指令、修復錯誤。

這已經是很大的進步，但大多數情況下，任務仍然以分鐘計算，最多幾小時。

AI 完成一個功能，人類 review，然後繼續下一個任務。

但沒有人嘗試過讓一個模型連續跑一週。

直到 GPT-5.2。

Cursor 團隊讓 GPT-5.2 持續運行了整整一週，不是斷斷續續，而是連續工作。

在這一週裡，它：

寫下了超過 300 萬行程式碼

創建了數千個檔案

執行了數兆個 token

從零構建了一個完整的瀏覽器渲染引擎

一個模型究竟能運作多久？

答案是：理論上，可以無限。

只要基礎設施穩定，只要任務足夠明確，AI 就能持續工作——不眠不休，不吃不喝，7×24 小時全年無休。

就像澳洲的放羊大叔的「賽博黑工」。

但實際上，不同模型的「耐力」差異巨大。

上下文視窗是第一道門檻。

早期的 GPT-3.5 只有 4K token 上下文，意味著對話稍長就會失憶。

Claude 3 推出了 200K 上下文，GPT-4 Turbo 追進 128K，Gemini 1.5 Pro 更是號稱支援 100 萬 token。

但上下文長度只是理論值——真正考驗的是模型在長任務中能否保持一致性、專注度和執行力。

Cursor 團隊在實驗中發現了關鍵差異。

在 Cursor 這篇官方部落格中，團隊在實驗中發現了關鍵差異：

GPT-5.2 能長時間自主工作，遵循指令精準，保持專注不偏離；

Claude Opus 4.5 傾向儘早結束，走捷徑，頻繁把控制權交還給使用者；

GPT-5.1-Codex 雖專為編碼訓練，但規劃能力不如 GPT-5.2，所以容易中斷。

用更直白的話說：Opus 個像急躁的實習生，幹一會就想問「這樣行不行？我先交了哈」；

而 GPT-5.2 像個老練的高級工程師，交代清楚任務就埋頭幹到底。

這也是為什麼 Cursor 官方宣稱：GPT-5.2 是處理長期運作任務的前沿模型。

不止瀏覽器。

Cursor 還透露了其他正在運作的實驗項目：Java LSP、Windows 7 模擬器和 Excel 克隆。

資料都很誇張，AI 自己不停地寫了 55 萬行程式碼、120 萬行程式碼和 160 萬行程式碼。（話說，Excel 程式碼比 Windows 還多點，因吹斯汀）

多智能體系統協作

一個模型在一週內寫 300 萬行程式碼，注意是不停的寫，沒有人類干預！

這顯然不是一個模型「單打獨鬥」，怎麼做到的？

Cursor 團隊透露了他們的秘密武器：多智能體系統。

最初，他們嘗試讓所有 Agent 平等協作，透過共用的檔案來同步狀態。結果發現：

Agent 會持有鎖太久，或者乾脆忘記釋放鎖。二十個 Agent 的速度下降到相當於兩三個 Agent 的有效吞吐量。

這像極了人類團隊中常見的問題：會議太多、溝通成本高、責任邊界不清。

最終有效的方案是分層架構：

規劃者：持續探索程式庫，創建任務，進行高層決策

執行者：專注於完成具體任務，不關心全域，提交後繼續下一個

評審：判斷每輪迭代是否合格，決定是否進入下一階段

這幾乎是人類軟體公司的組織架構：產品經理 / 架構師負責規劃，程式設計師負責執行，QA 負責評審。

但區別在於——這是成百上千個 Agent 同時工作。

Cursor 團隊實現了上百個 Agent 可以在同一個程式庫上協同工作數週，幾乎沒有程式碼衝突。

這意味著 AI 已經學會了人類團隊需要多年才能磨合出的協作默契。

瀏覽器的「護城河」

比你想像的要深得多

如果聽到「不就是個顯示網頁的軟體嗎」這種評價，所有做過瀏覽器核心的工程師大概都會苦笑。

在電腦科學的領域鏈裡，手寫瀏覽器核心的難度，僅次於手寫一個作業系統。

為了讓你對這 300 萬行程式碼有個概念，我們需要看一眼 Google 的 Chromium（Chrome 的開源母體）。

作為人類軟體工程的巔峰之一，Chromium 的程式碼量早已突破 3500 萬行。

它不僅僅是一個軟體，本質上已經是一個「偽裝成應用程式的作業系統」。

GPT-5.2 挑戰的究竟是什麼？

首先是 CSS 的「混沌理論」。

網頁排版從來不是簡單的堆積木。

CSS 標準裡充滿了各種歷史遺留的怪癖、層疊規則和複雜的繼承邏輯。

一位前 Firefox 瀏覽器工程師曾打過比方：實現一個完美的 CSS 引擎，就像是在模擬一個物理法則隨心所欲變化的宇宙。你改動一個父元素的屬性，可能導致幾千個子元素的佈局瞬間崩塌。

其次是「虛擬機裡的虛擬機」。

這次 AI 不僅寫了介面，還寫了一個 JS 虛擬機。

現代網頁跑的 JavaScript 程式碼需要記憶體管理、垃圾回收（GC）和安全沙箱。

稍微處理不好，網頁就會吃光你的記憶體，或者直接讓駭客穿透瀏覽器接管電腦。

最要命的是，它選了 Rust。

Rust 這門語言以「絕不妥協的安全」著稱，它的編譯器就像一位極度神經質的考官。

人類工程師在寫業務邏輯時，往往要花一半的時間和編譯器「吵架」，處理借用檢查和生命週期問題。

AI 不僅要懂業務，還得在幾百萬行程式碼的規模下，讓這位「考官」挑不出毛病。

能在七天內把這些硬骨頭啃下來，並且讓它們協同工作，這已經不是簡單的「寫得快」了，這意味機器開始具備了頂級的架構掌控力。

當 AI 能夠「忍受孤獨」

但這則新聞真正的炸點，其實不在於瀏覽器本身，而在於那個「Uninterrupted」（無中斷）。

這是 AI 進化的分水嶺。

在此之前，我們熟悉的 AI 程式設計工具（比如早期的 Copilot）的情況是：你寫個函數頭，它補全五行程式碼；你發個指令，它產生一個腳本。

它們的記憶是碎片化的，注意力是短暫的。

一旦任務稍微複雜一點，比如「重構這個模組」，它們往往會顧頭不顧尾，改了這頭壞了那頭，最後還得人來擦屁股。

但這次不一樣。這是一次「長時任務」的勝利。

這 300 萬行程式碼分佈在數千個檔案裡。

當 AI 寫到第 300 萬行時，它必須依然「記得」第 1 行程式碼裡定下的架構規矩；

當渲染引擎和 JS 虛擬機打架時，它必須能回溯幾萬行程式碼去尋找 Bug 的源頭。

這 168 個小時裡，GPT-5.2 肯定寫出過 Bug。

但它沒有停下來報錯等待人類投餵答案，而是自己讀取錯誤日誌，自己除錯，自己重構，然後繼續前行。

這種「撰寫-執行-修復」的自主閉環，曾經是我們人類工程師最引以為傲的護城河。

現在，這條護城河被填平了。

我們正在目睹 AI 從「聊天伴侶」向「數位勞工」的質變。

以前我們指挥 AI 做「任務」，比如「寫個貪吃蛇」；

現在我們指挥 AI 做「項目」，比如「造個瀏覽器」。

沉默的螺旋

雖然這個 AI 版瀏覽器的成熟度距離 Chrome 還有很長的路要走，但它證明了路徑的可行性。

當算力可以轉化為極其複雜的工程實施能力時，軟體開發的邊際成本將趨近於零。

這場實驗最令人震撼的，其實不是螢幕上那個渲染出的網頁，而是那個在後台沉默運行了整整七天的進度條。

它不眠不休，不急不躁，以每秒數千個字元的速度構建著數位世界的基石。

也許我們該重新審視「創造」的定義了。

只有當工具開始獨自在深夜裡解決問題時，我們才明白，它不再只是工具，而是我們的同行者。

從澳洲大叔的「賽博黑工」

到 AI 長時任務

用 5 行程式碼逼瘋矽谷的澳洲放羊大叔，其實只做了一件事情，就是讓 AI 不達目標不能停止。

至於 Prompt.md 寫了什麼指令，並不是重點。

就像今天 Cursor CEO 搞的這個極限壓力測試一樣，目標就是造一個 Chrome、造一個 Windows、開發一個 Excel，只要沒完成目標，AI 就要一直運作下去。回到最開始那個問題：

一個 AI 究竟能自己幹多久？

物理上的答案是無窮。只要你有足夠的算力、穩定的基礎設施、清晰的任務定義，AI 可以無限運作下去。

但更重要的是，這改變了軟體開發的經濟學。

傳統軟體開發的主要成本是人力和時間。

一個 10 人團隊開發一個複雜項目，可能需要 6 個月到數年。每個月的人力成本可能是幾十萬到上百萬。

現在，AI 可以在一週內完成原本需要數月的工作。

成本可能只是一些 token 費用，Emad Mostaque（Stability AI 前執行長）猜測 Cursor 瀏覽器項目可能消耗了約 30 億個 token。

他還有一個想法：用多少 token 能夠重寫一套 Windows 級別的作業系統？成本如何？

Token 是越來越便宜的，就像之前的水和電，最終基於 token 的算力也會變得極其廉價。

於是，軟體經濟學就被徹底顛覆。比如，軟體按照授權付費的方式恐怕要消失了。

在 2026 年的今天，軟體開發正在經歷一場基因級別的變異。

從前，程式碼是人類一行一行敲出來的產物。

未來，程式碼可能只是人類意圖的自動展開：你描述你想要什麼，AI 就能把它變成現實。

一個模型能跑多久？

只要你需要，它就能跑下去。

參考資料：

https://x.com/mntruell/status/2011562190286045552

https://x.com/leerob/status/2011565729838166269

https://cursor.com/cn/blog/scaling-agents

GPT-5.2 連續熬夜 7 天，300 萬行程式碼打造出 Chrome 級瀏覽器

相關文章推薦

分享網址