GPT-5.2 連續熬夜 7 天,300 萬行程式碼打造出 Chrome 級瀏覽器

圖片

新智元報導

編輯:定慧 艾倫

【新智元導讀】一個大模型持續寫程式,能寫多久?一小時?一天?還是像大部分 AI 程式設計工具那樣,完成一個任務就結束對話?Cursor 的 CEO Michael Truell 決定搞一次極限壓力測試!

Michael Truell 讓 Cursor 中的 GPT-5.2 連續運行了整整一週。

不是一小時,不是一天,而是不眠不休,晝夜不停,168 小時持續寫程式。

結果?

300 萬行程式碼。數千個檔案。

AI 完全從零構建出一個全新瀏覽器。

圖片

而且,還是 Chrome 那種瀏覽器。

HTML 解析、CSS 佈局、文字渲染、還有一個自研的 JavaScript 虛擬機——全是 AI 自己寫的。

Michael Truell 輕描淡寫地發了條推文:它基本能跑!簡單的網頁能快速且正確地渲染出來。

圖片

圖片

一個模型究竟能跑多久

傳統的 AI 程式設計工具,比如 Github Copilot 和早期其他的 IDE,都是一問一答模式。

對話長度有限,上下文有限,任務複雜度有限。

後來出現了所謂的 Agentic 程式設計——Claude Code、Cursor Agent、Windsurf 等工具讓 AI 可以自主執行多步任務,讀取檔案、執行指令、修復錯誤。

這已經是很大的進步,但大多數情況下,任務仍然以分鐘計算,最多幾小時。

AI 完成一個功能,人類 review,然後繼續下一個任務。

但沒有人嘗試過讓一個模型連續跑一週。

直到 GPT-5.2。

Cursor 團隊讓 GPT-5.2 持續運行了整整一週,不是斷斷續續,而是連續工作。

圖片

在這一週裡,它:

寫下了超過 300 萬行程式碼

創建了數千個檔案

執行了數兆個 token

從零構建了一個完整的瀏覽器渲染引擎

一個模型究竟能運作多久?

答案是:理論上,可以無限。

只要基礎設施穩定,只要任務足夠明確,AI 就能持續工作——不眠不休,不吃不喝,7×24 小時全年無休。

就像澳洲的放羊大叔的「賽博黑工」。

但實際上,不同模型的「耐力」差異巨大。

上下文視窗是第一道門檻。

早期的 GPT-3.5 只有 4K token 上下文,意味著對話稍長就會失憶。

Claude 3 推出了 200K 上下文,GPT-4 Turbo 追進 128K,Gemini 1.5 Pro 更是號稱支援 100 萬 token。

但上下文長度只是理論值——真正考驗的是模型在長任務中能否保持一致性、專注度和執行力。

Cursor 團隊在實驗中發現了關鍵差異。

圖片

在 Cursor 這篇官方部落格中,團隊在實驗中發現了關鍵差異:

GPT-5.2 能長時間自主工作,遵循指令精準,保持專注不偏離;

Claude Opus 4.5 傾向儘早結束,走捷徑,頻繁把控制權交還給使用者;

GPT-5.1-Codex 雖專為編碼訓練,但規劃能力不如 GPT-5.2,所以容易中斷。

用更直白的話說:Opus 個像急躁的實習生,幹一會就想問「這樣行不行?我先交了哈」;

圖片

而 GPT-5.2 像個老練的高級工程師,交代清楚任務就埋頭幹到底。

這也是為什麼 Cursor 官方宣稱:GPT-5.2 是處理長期運作任務的前沿模型。

不止瀏覽器。

Cursor 還透露了其他正在運作的實驗項目:Java LSP、Windows 7 模擬器和 Excel 克隆。

資料都很誇張,AI 自己不停地寫了 55 萬行程式碼、120 萬行程式碼和 160 萬行程式碼。(話說,Excel 程式碼比 Windows 還多點,因吹斯汀)

圖片

圖片

多智能體系統協作

一個模型在一週內寫 300 萬行程式碼,注意是不停的寫,沒有人類干預!

這顯然不是一個模型「單打獨鬥」,怎麼做到的?

Cursor 團隊透露了他們的秘密武器:多智能體系統。

圖片

最初,他們嘗試讓所有 Agent 平等協作,透過共用的檔案來同步狀態。結果發現:

Agent 會持有鎖太久,或者乾脆忘記釋放鎖。二十個 Agent 的速度下降到相當於兩三個 Agent 的有效吞吐量。

圖片

這像極了人類團隊中常見的問題:會議太多、溝通成本高、責任邊界不清。

最終有效的方案是分層架構:

規劃者:持續探索程式庫,創建任務,進行高層決策

執行者:專注於完成具體任務,不關心全域,提交後繼續下一個

評審:判斷每輪迭代是否合格,決定是否進入下一階段

這幾乎是人類軟體公司的組織架構:產品經理 / 架構師負責規劃,程式設計師負責執行,QA 負責評審。

但區別在於——這是成百上千個 Agent 同時工作。

Cursor 團隊實現了上百個 Agent 可以在同一個程式庫上協同工作數週,幾乎沒有程式碼衝突。

這意味著 AI 已經學會了人類團隊需要多年才能磨合出的協作默契。

圖片

瀏覽器的「護城河」

比你想像的要深得多

如果聽到「不就是個顯示網頁的軟體嗎」這種評價,所有做過瀏覽器核心的工程師大概都會苦笑。

在電腦科學的領域鏈裡,手寫瀏覽器核心的難度,僅次於手寫一個作業系統。

為了讓你對這 300 萬行程式碼有個概念,我們需要看一眼 Google 的 Chromium(Chrome 的開源母體)。

作為人類軟體工程的巔峰之一,Chromium 的程式碼量早已突破 3500 萬行。

它不僅僅是一個軟體,本質上已經是一個「偽裝成應用程式的作業系統」。

GPT-5.2 挑戰的究竟是什麼?

首先是 CSS 的「混沌理論」。

網頁排版從來不是簡單的堆積木。

CSS 標準裡充滿了各種歷史遺留的怪癖、層疊規則和複雜的繼承邏輯。

一位前 Firefox 瀏覽器工程師曾打過比方:實現一個完美的 CSS 引擎,就像是在模擬一個物理法則隨心所欲變化的宇宙。你改動一個父元素的屬性,可能導致幾千個子元素的佈局瞬間崩塌。

其次是「虛擬機裡的虛擬機」。

這次 AI 不僅寫了介面,還寫了一個 JS 虛擬機。

現代網頁跑的 JavaScript 程式碼需要記憶體管理、垃圾回收(GC)和安全沙箱。

稍微處理不好,網頁就會吃光你的記憶體,或者直接讓駭客穿透瀏覽器接管電腦。

最要命的是,它選了 Rust。

Rust 這門語言以「絕不妥協的安全」著稱,它的編譯器就像一位極度神經質的考官。

人類工程師在寫業務邏輯時,往往要花一半的時間和編譯器「吵架」,處理借用檢查和生命週期問題。

AI 不僅要懂業務,還得在幾百萬行程式碼的規模下,讓這位「考官」挑不出毛病。

能在七天內把這些硬骨頭啃下來,並且讓它們協同工作,這已經不是簡單的「寫得快」了,這意味機器開始具備了頂級的架構掌控力。

圖片

當 AI 能夠「忍受孤獨」

但這則新聞真正的炸點,其實不在於瀏覽器本身,而在於那個「Uninterrupted」(無中斷)。

這是 AI 進化的分水嶺。

在此之前,我們熟悉的 AI 程式設計工具(比如早期的 Copilot)的情況是:你寫個函數頭,它補全五行程式碼;你發個指令,它產生一個腳本。

它們的記憶是碎片化的,注意力是短暫的。

一旦任務稍微複雜一點,比如「重構這個模組」,它們往往會顧頭不顧尾,改了這頭壞了那頭,最後還得人來擦屁股。

但這次不一樣。這是一次「長時任務」的勝利。

這 300 萬行程式碼分佈在數千個檔案裡。

當 AI 寫到第 300 萬行時,它必須依然「記得」第 1 行程式碼裡定下的架構規矩;

當渲染引擎和 JS 虛擬機打架時,它必須能回溯幾萬行程式碼去尋找 Bug 的源頭。

這 168 個小時裡,GPT-5.2 肯定寫出過 Bug。

但它沒有停下來報錯等待人類投餵答案,而是自己讀取錯誤日誌,自己除錯,自己重構,然後繼續前行。

這種「撰寫-執行-修復」的自主閉環,曾經是我們人類工程師最引以為傲的護城河。

現在,這條護城河被填平了。

我們正在目睹 AI 從「聊天伴侶」向「數位勞工」的質變。

以前我們指挥 AI 做「任務」,比如「寫個貪吃蛇」;

現在我們指挥 AI 做「項目」,比如「造個瀏覽器」。

圖片

沉默的螺旋

雖然這個 AI 版瀏覽器的成熟度距離 Chrome 還有很長的路要走,但它證明了路徑的可行性。

當算力可以轉化為極其複雜的工程實施能力時,軟體開發的邊際成本將趨近於零。

這場實驗最令人震撼的,其實不是螢幕上那個渲染出的網頁,而是那個在後台沉默運行了整整七天的進度條。

它不眠不休,不急不躁,以每秒數千個字元的速度構建著數位世界的基石。

也許我們該重新審視「創造」的定義了。

只有當工具開始獨自在深夜裡解決問題時,我們才明白,它不再只是工具,而是我們的同行者。

圖片

從澳洲大叔的「賽博黑工」

到 AI 長時任務

用 5 行程式碼逼瘋矽谷的澳洲放羊大叔,其實只做了一件事情,就是讓 AI 不達目標不能停止。

圖片

至於 Prompt.md 寫了什麼指令,並不是重點。

就像今天 Cursor CEO 搞的這個極限壓力測試一樣,目標就是造一個 Chrome、造一個 Windows、開發一個 Excel,只要沒完成目標,AI 就要一直運作下去。回到最開始那個問題:

一個 AI 究竟能自己幹多久?

物理上的答案是無窮。只要你有足夠的算力、穩定的基礎設施、清晰的任務定義,AI 可以無限運作下去。

但更重要的是,這改變了軟體開發的經濟學。

傳統軟體開發的主要成本是人力和時間。

一個 10 人團隊開發一個複雜項目,可能需要 6 個月到數年。每個月的人力成本可能是幾十萬到上百萬。

現在,AI 可以在一週內完成原本需要數月的工作。

成本可能只是一些 token 費用,Emad Mostaque(Stability AI 前執行長)猜測 Cursor 瀏覽器項目可能消耗了約 30 億個 token。

他還有一個想法:用多少 token 能夠重寫一套 Windows 級別的作業系統?成本如何?

圖片

Token 是越來越便宜的,就像之前的水和電,最終基於 token 的算力也會變得極其廉價。

於是,軟體經濟學就被徹底顛覆。比如,軟體按照授權付費的方式恐怕要消失了。

在 2026 年的今天,軟體開發正在經歷一場基因級別的變異。

從前,程式碼是人類一行一行敲出來的產物。

未來,程式碼可能只是人類意圖的自動展開:你描述你想要什麼,AI 就能把它變成現實。

一個模型能跑多久?

只要你需要,它就能跑下去。

參考資料:

https://x.com/mntruell/status/2011562190286045552

https://x.com/leerob/status/2011565729838166269

https://cursor.com/cn/blog/scaling-agents


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.