澳洲放羊大叔引爆AI程式開發革命！Claude Code 急推 goal 模式，不完工不許停

新智元報導

編輯：好睏 KingZH

【新智元導讀】澳洲牧羊大叔隨手寫的三行 bash，11 天內被 OpenAI、Anthropic 和 Hermes 集體收編了。

一覺醒來，Claude Code 又更新了！

為了讓 Claude 持續工作直到任務完成，Claude Code 最近推出了新功能：/goal 。

你只要設定條件，Claude 不完成任務絕不罷休！

用過 AI 程式開發工具的人都懂，這到底有多重要！

你給 Agent 下了一個任務，它跑了三個回合，改了兩個檔案，突然停下來問你「接下來需要我做什麼？」

不是吧，bug 還沒修完耶！

Agent 越來越聰明，寫程式越來越快，但「從頭到尾把一件事做完」這件事，到 2026 年初都沒有一家做得到。

然後，一位來自澳洲的牧羊大叔 Geoffrey Huntley，用三行 bash 解決了。

while :; do
  cat PROMPT.md | claude-code --continue
done

他把它命名為 Ralph Loop，致敬《辛普森家庭》裡那個永遠搞不清狀況但從不放棄的小孩 Ralph Wiggum。

邏輯極其粗暴，無限迴圈，反覆把同一個 prompt 餵給 Agent。進度寫在檔案系統和 Git 歷史裡，上下文滿了就開新實例，讀檔接著做。

陽春，不優雅，但十分有效。

有效到 OpenAI 看見了，Nous Research 看見了，Anthropic 也看見了。

11 天，三家頂級 AI 實驗室，不約而同地把這三行 bash 寫進了官方產品。

這一刻，所有人都明白了一件事——通用人工智慧的臨門一腳，可能不是更聰明的模型，而是「把事做完」的模型。

換句話說，AI 程式開發的核心戰場正在從「生成程式碼」轉向「閉環交付」。

11 天，三條線，同一個終點

4 月 30 日，OpenAI 的 Codex 率先上線 /goal。

Greg Brockman 在 X 上只丟了一句：「Codex 現已內建 Ralph loop++」。

一週後，Hermes Agent 跟進。又過 4 天，Claude Code 也上了。

11 天。三家。同一個指令。同一個功能。

但實現路徑，差了十萬八千里。

Codex「不忘事」，Hermes「不爛尾」，Claude Code「不自欺」。

Codex：把目標存成一條資料庫記錄

OpenAI 是三家裡最先出手的，方案也最簡潔。

在 Codex 裡，/goal 是一個持久化的工作流物件，存在本地的 app-server 狀態層裡。關掉終端機、蓋上筆電、甚至重開機，目標都不會丟。下次打開 Codex，自動接上。

模型透過結構化的 update_goal 工具回報進度狀態，token 預算耗盡時觸發「軟著陸」而非硬停。

有人用這個功能連續跑了 14 個小時，中間暫停 5 小時去睡覺，回來 Codex 從斷點續跑，把一個設備驅動專案做完了。

工程化，乾淨，但克制。

Hermes Agent：一個人做不完，那就上一個團隊

Hermes Agent 的野心最大。

在這裡，/goal 只是冰山一角。真正的重頭戲是多智能體看板系統，Hermes 把「讓 AI 把活做完」從單 Agent 問題升級成了團隊協作問題。

看板的底層是本地 SQLite，持久化儲存，跨重啟不丟。你在上面建立一個任務卡片，Hermes 會直接把它拆成多個子任務，分配給不同的 Agent worker。每個 worker 是一個獨立的 OS 進程，有自己的身份、模型設定和工作目錄。

看板和 /goal 是兩套互補的系統。/goal 管的是單個 Agent 的目標鎖定（Ralph loop），看板管的是多個 Agent 之間的任務排程。一個縱向深入，一個橫向鋪開。

最後，是五層防爛尾機制。

第一層，心跳檢測。每個 worker 定期向看板報到，證明自己還活著。

第二層，殭屍回收。worker 超時沒反應？系統自動判定死亡，回收它手上的任務重新分配。macOS 上還有專門的達爾文殭屍檢測邏輯。

第三層，退出攔截。worker 沒完成任務就退出了？系統自動把它標記為 blocked，不讓它再接新工作，防止「摸魚型 Agent」反覆領任務又不做。

第四層，幻覺攔截。這是最狠的一層。AI 說「我做完了」不算數，系統會驗證它實際產出的程式碼是否真的寫入磁碟了。Agent 說自己建立了一個檔案但實際上沒有？抓到，回滾，重來。

第五層，重試預算。每個任務有獨立的 max_retries，最多重試 N 次，超過就上報人類。絕對不會無限迴圈到當機。

Claude Code：做事的人和驗收的人，不能是同一個

Anthropic 是三家裡最後出手的，但方案最巧妙。

本質上，Claude Code 的 /goal 是一個 session 級別的 Stop Hook。

你設定一個完成條件（例如「test/auth 目錄下所有測試通過且 lint 無報錯」），Claude 就開始工作。

關鍵設計在驗收環節。每做完一輪，系統不讓 Claude 自己判斷「我做完了沒有」。它把對話記錄和你的完成條件一起發給一個獨立的小模型（預設是 Haiku），讓這個小模型來裁判。

小模型如果覺得沒完成，就需要返回一個具體理由（例如「test_login.py 還有 2 個 failure」）。然後這個理由會被注入 Claude 下一輪的上下文，引導它接著做。

如果小模型認為完成了，目標就會自動清除，任務結束。

若影片無法播放，請改看來源頁。

值得一提的是，這個裁判模型不呼叫任何工具，不讀檔案，不跑指令。它只看 Claude 在對話裡產出的內容。所以，你的完成條件必須是 Claude 在對話中能證明的東西。它最長支援 4000 字元，因此你可以寫得很細。甚至，還可以在條件裡加約束，例如「不修改其他測試檔案」「20 輪內完成否則停止」等等。