澳洲放羊大叔引爆AI程式開發革命!Claude Code 急推 goal 模式,不完工不許停

圖片


新智元報導

編輯:好睏 KingZH

【新智元導讀】澳洲牧羊大叔隨手寫的三行 bash,11 天內被 OpenAI、Anthropic 和 Hermes 集體收編了。

一覺醒來,Claude Code 又更新了!

為了讓 Claude 持續工作直到任務完成,Claude Code 最近推出了新功能:/goal 。

圖片

你只要設定條件,Claude 不完成任務絕不罷休!

圖片

用過 AI 程式開發工具的人都懂,這到底有多重要!

你給 Agent 下了一個任務,它跑了三個回合,改了兩個檔案,突然停下來問你「接下來需要我做什麼?」

不是吧,bug 還沒修完耶!

圖片

Agent 越來越聰明,寫程式越來越快,但「從頭到尾把一件事做完」這件事,到 2026 年初都沒有一家做得到。

然後,一位來自澳洲的牧羊大叔 Geoffrey Huntley,用三行 bash 解決了。

while :; do
  cat PROMPT.md | claude-code --continue
done

他把它命名為 Ralph Loop,致敬《辛普森家庭》裡那個永遠搞不清狀況但從不放棄的小孩 Ralph Wiggum。

邏輯極其粗暴,無限迴圈,反覆把同一個 prompt 餵給 Agent。進度寫在檔案系統和 Git 歷史裡,上下文滿了就開新實例,讀檔接著做。

圖片

陽春,不優雅,但十分有效。

有效到 OpenAI 看見了,Nous Research 看見了,Anthropic 也看見了。

11 天,三家頂級 AI 實驗室,不約而同地把這三行 bash 寫進了官方產品。

這一刻,所有人都明白了一件事——通用人工智慧的臨門一腳,可能不是更聰明的模型,而是「把事做完」的模型。

換句話說,AI 程式開發的核心戰場正在從「生成程式碼」轉向「閉環交付」。

圖片

11 天,三條線,同一個終點

4 月 30 日,OpenAI 的 Codex 率先上線 /goal

Greg Brockman 在 X 上只丟了一句:「Codex 現已內建 Ralph loop++」。

圖片

一週後,Hermes Agent 跟進。又過 4 天,Claude Code 也上了。

11 天。三家。同一個指令。同一個功能。

但實現路徑,差了十萬八千里。

Codex「不忘事」,Hermes「不爛尾」,Claude Code「不自欺」。

圖片

圖片

Codex:把目標存成一條資料庫記錄

OpenAI 是三家裡最先出手的,方案也最簡潔。

在 Codex 裡,/goal 是一個持久化的工作流物件,存在本地的 app-server 狀態層裡。關掉終端機、蓋上筆電、甚至重開機,目標都不會丟。下次打開 Codex,自動接上。

圖片

模型透過結構化的 update_goal 工具回報進度狀態,token 預算耗盡時觸發「軟著陸」而非硬停。

有人用這個功能連續跑了 14 個小時,中間暫停 5 小時去睡覺,回來 Codex 從斷點續跑,把一個設備驅動專案做完了。

工程化,乾淨,但克制。

圖片

圖片

Hermes Agent:一個人做不完,那就上一個團隊

Hermes Agent 的野心最大。

在這裡,/goal 只是冰山一角。真正的重頭戲是多智能體看板系統,Hermes 把「讓 AI 把活做完」從單 Agent 問題升級成了團隊協作問題。

圖片

看板的底層是本地 SQLite,持久化儲存,跨重啟不丟。你在上面建立一個任務卡片,Hermes 會直接把它拆成多個子任務,分配給不同的 Agent worker。每個 worker 是一個獨立的 OS 進程,有自己的身份、模型設定和工作目錄。

看板和 /goal 是兩套互補的系統。/goal 管的是單個 Agent 的目標鎖定(Ralph loop),看板管的是多個 Agent 之間的任務排程。一個縱向深入,一個橫向鋪開。

最後,是五層防爛尾機制。

第一層,心跳檢測。每個 worker 定期向看板報到,證明自己還活著。

第二層,殭屍回收。worker 超時沒反應?系統自動判定死亡,回收它手上的任務重新分配。macOS 上還有專門的達爾文殭屍檢測邏輯。

第三層,退出攔截。worker 沒完成任務就退出了?系統自動把它標記為 blocked,不讓它再接新工作,防止「摸魚型 Agent」反覆領任務又不做。

第四層,幻覺攔截。這是最狠的一層。AI 說「我做完了」不算數,系統會驗證它實際產出的程式碼是否真的寫入磁碟了。Agent 說自己建立了一個檔案但實際上沒有?抓到,回滾,重來。

第五層,重試預算。每個任務有獨立的 max_retries,最多重試 N 次,超過就上報人類。絕對不會無限迴圈到當機。

圖片

圖片

Claude Code:做事的人和驗收的人,不能是同一個

Anthropic 是三家裡最後出手的,但方案最巧妙。

本質上,Claude Code 的 /goal 是一個 session 級別的 Stop Hook。

你設定一個完成條件(例如「test/auth 目錄下所有測試通過且 lint 無報錯」),Claude 就開始工作。

圖片

關鍵設計在驗收環節。每做完一輪,系統不讓 Claude 自己判斷「我做完了沒有」。它把對話記錄和你的完成條件一起發給一個獨立的小模型(預設是 Haiku),讓這個小模型來裁判。

小模型如果覺得沒完成,就需要返回一個具體理由(例如「test_login.py 還有 2 個 failure」)。然後這個理由會被注入 Claude 下一輪的上下文,引導它接著做。

如果小模型認為完成了,目標就會自動清除,任務結束。

若影片無法播放,請改看 來源頁

值得一提的是,這個裁判模型不呼叫任何工具,不讀檔案,不跑指令。它只看 Claude 在對話裡產出的內容。所以,你的完成條件必須是 Claude 在對話中能證明的東西。它最長支援 4000 字元,因此你可以寫得很細。甚至,還可以在條件裡加約束,例如「不修改其他測試檔案」「20 輪內完成否則停止」等等。

圖片

圖片

決賽進行式:工作流入口

把視角拉遠一步。

Claude Code 背後站著 Anthropic,Codex 背後站著 OpenAI,Hermes Agent 接入了兩邊的模型,同時也是 DeepSeek V4 等模型的主力分發管道。三條路徑,恰好覆蓋了 ASI 決賽的三個生態入口。

而他們爭的,也是同一樣東西——工作流。誰的 Agent 先讓開發者養成「設完目標就走開」的習慣,誰就鎖死了工作流入口。因為習慣一旦形成,遷移成本是指數級的。你不會輕易離開一個已經跑通了看板排程、斷點續傳、checkpoint 回滾的 Agent 基礎設施。

一個看似很小的 /goal 指令,背後卡的是整條 Agent 工作流的護城河。

參考資料:

https://code.claude.com/docs/en/goal

https://github.com/NousResearch/hermes-agent/releases/tag/v2026.5.7

https://github.com/anthropics/claude-code/releases/tag/v2.1.139

https://developers.openai.com/codex/changelog

⭐按讚、轉發、在看一鍵三連⭐

點亮星標,鎖定新智元極速推送!

圖片

圖片

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.