新智元報導
編輯:好睏 KingZH
【新智元導讀】澳洲牧羊大叔隨手寫的三行 bash,11 天內被 OpenAI、Anthropic 和 Hermes 集體收編了。
一覺醒來,Claude Code 又更新了!
為了讓 Claude 持續工作直到任務完成,Claude Code 最近推出了新功能:/goal 。
你只要設定條件,Claude 不完成任務絕不罷休!
用過 AI 程式開發工具的人都懂,這到底有多重要!
你給 Agent 下了一個任務,它跑了三個回合,改了兩個檔案,突然停下來問你「接下來需要我做什麼?」
不是吧,bug 還沒修完耶!
Agent 越來越聰明,寫程式越來越快,但「從頭到尾把一件事做完」這件事,到 2026 年初都沒有一家做得到。
然後,一位來自澳洲的牧羊大叔 Geoffrey Huntley,用三行 bash 解決了。
while :; do
cat PROMPT.md | claude-code --continue
done他把它命名為 Ralph Loop,致敬《辛普森家庭》裡那個永遠搞不清狀況但從不放棄的小孩 Ralph Wiggum。
邏輯極其粗暴,無限迴圈,反覆把同一個 prompt 餵給 Agent。進度寫在檔案系統和 Git 歷史裡,上下文滿了就開新實例,讀檔接著做。
陽春,不優雅,但十分有效。
有效到 OpenAI 看見了,Nous Research 看見了,Anthropic 也看見了。
11 天,三家頂級 AI 實驗室,不約而同地把這三行 bash 寫進了官方產品。
這一刻,所有人都明白了一件事——通用人工智慧的臨門一腳,可能不是更聰明的模型,而是「把事做完」的模型。
換句話說,AI 程式開發的核心戰場正在從「生成程式碼」轉向「閉環交付」。
11 天,三條線,同一個終點
4 月 30 日,OpenAI 的 Codex 率先上線 /goal。
Greg Brockman 在 X 上只丟了一句:「Codex 現已內建 Ralph loop++」。
一週後,Hermes Agent 跟進。又過 4 天,Claude Code 也上了。
11 天。三家。同一個指令。同一個功能。
但實現路徑,差了十萬八千里。
Codex「不忘事」,Hermes「不爛尾」,Claude Code「不自欺」。
Codex:把目標存成一條資料庫記錄
OpenAI 是三家裡最先出手的,方案也最簡潔。
在 Codex 裡,/goal 是一個持久化的工作流物件,存在本地的 app-server 狀態層裡。關掉終端機、蓋上筆電、甚至重開機,目標都不會丟。下次打開 Codex,自動接上。
模型透過結構化的 update_goal 工具回報進度狀態,token 預算耗盡時觸發「軟著陸」而非硬停。
有人用這個功能連續跑了 14 個小時,中間暫停 5 小時去睡覺,回來 Codex 從斷點續跑,把一個設備驅動專案做完了。
工程化,乾淨,但克制。
Hermes Agent:一個人做不完,那就上一個團隊
Hermes Agent 的野心最大。
在這裡,/goal 只是冰山一角。真正的重頭戲是多智能體看板系統,Hermes 把「讓 AI 把活做完」從單 Agent 問題升級成了團隊協作問題。
看板的底層是本地 SQLite,持久化儲存,跨重啟不丟。你在上面建立一個任務卡片,Hermes 會直接把它拆成多個子任務,分配給不同的 Agent worker。每個 worker 是一個獨立的 OS 進程,有自己的身份、模型設定和工作目錄。
看板和 /goal 是兩套互補的系統。/goal 管的是單個 Agent 的目標鎖定(Ralph loop),看板管的是多個 Agent 之間的任務排程。一個縱向深入,一個橫向鋪開。
最後,是五層防爛尾機制。
第一層,心跳檢測。每個 worker 定期向看板報到,證明自己還活著。
第二層,殭屍回收。worker 超時沒反應?系統自動判定死亡,回收它手上的任務重新分配。macOS 上還有專門的達爾文殭屍檢測邏輯。
第三層,退出攔截。worker 沒完成任務就退出了?系統自動把它標記為 blocked,不讓它再接新工作,防止「摸魚型 Agent」反覆領任務又不做。
第四層,幻覺攔截。這是最狠的一層。AI 說「我做完了」不算數,系統會驗證它實際產出的程式碼是否真的寫入磁碟了。Agent 說自己建立了一個檔案但實際上沒有?抓到,回滾,重來。
第五層,重試預算。每個任務有獨立的 max_retries,最多重試 N 次,超過就上報人類。絕對不會無限迴圈到當機。
Claude Code:做事的人和驗收的人,不能是同一個
Anthropic 是三家裡最後出手的,但方案最巧妙。
本質上,Claude Code 的 /goal 是一個 session 級別的 Stop Hook。
你設定一個完成條件(例如「test/auth 目錄下所有測試通過且 lint 無報錯」),Claude 就開始工作。
關鍵設計在驗收環節。每做完一輪,系統不讓 Claude 自己判斷「我做完了沒有」。它把對話記錄和你的完成條件一起發給一個獨立的小模型(預設是 Haiku),讓這個小模型來裁判。
小模型如果覺得沒完成,就需要返回一個具體理由(例如「test_login.py 還有 2 個 failure」)。然後這個理由會被注入 Claude 下一輪的上下文,引導它接著做。
如果小模型認為完成了,目標就會自動清除,任務結束。
值得一提的是,這個裁判模型不呼叫任何工具,不讀檔案,不跑指令。它只看 Claude 在對話裡產出的內容。所以,你的完成條件必須是 Claude 在對話中能證明的東西。它最長支援 4000 字元,因此你可以寫得很細。甚至,還可以在條件裡加約束,例如「不修改其他測試檔案」「20 輪內完成否則停止」等等。
決賽進行式:工作流入口
把視角拉遠一步。
Claude Code 背後站著 Anthropic,Codex 背後站著 OpenAI,Hermes Agent 接入了兩邊的模型,同時也是 DeepSeek V4 等模型的主力分發管道。三條路徑,恰好覆蓋了 ASI 決賽的三個生態入口。
而他們爭的,也是同一樣東西——工作流。誰的 Agent 先讓開發者養成「設完目標就走開」的習慣,誰就鎖死了工作流入口。因為習慣一旦形成,遷移成本是指數級的。你不會輕易離開一個已經跑通了看板排程、斷點續傳、checkpoint 回滾的 Agent 基礎設施。
一個看似很小的 /goal 指令,背後卡的是整條 Agent 工作流的護城河。
參考資料:
https://code.claude.com/docs/en/goal
https://github.com/NousResearch/hermes-agent/releases/tag/v2026.5.7
https://github.com/anthropics/claude-code/releases/tag/v2.1.139
https://developers.openai.com/codex/changelog
⭐按讚、轉發、在看一鍵三連⭐
點亮星標,鎖定新智元極速推送!