顧問策略:為代理人提供智慧升級

希望在智慧與成本之間取得更佳平衡的開發者,紛紛採用我們所稱的「顧問策略」:以 Opus 擔任顧問,搭配 Sonnet 或 Haiku 作為執行者。這種方式能讓您的代理人具備接近 Opus 等級的智慧,同時將成本控制在接近 Sonnet 的水準。

今天我們在 Claude 平台上推出「顧問工具」,讓您只需在 API 呼叫中修改一行程式碼,就能實現顧問策略。

運用顧問策略打造高成本效益的代理人

在顧問策略中,Sonnet 或 Haiku 作為執行者端對端執行任務,包括呼叫工具、讀取結果,並持續迭代以找到解決方案。當執行者遇到無法合理解決的決策時,會向 Opus 顧問尋求指引。Opus 存取共享情境後,會回傳計畫、修正建議或停止訊號,然後執行者繼續執行。顧問不會呼叫工具或產生面向使用者的輸出,僅向執行者提供指導。

這與常見的子代理人模式相反——在傳統模式中,較大的協調模型會分解工作並委派給較小的工作模型。而在顧問策略中,由較小、更具成本效益的模型主導,並在需要時升級求助,無需分解工作、工作池或協調邏輯。前線等級的推理能力僅在執行者需要時才會使用,其餘執行過程的成本則維持在執行者等級。

根據我們的評估,以 Opus 作為顧問的 Sonnet,在SWE-bench Multilingual1上的表現較單獨使用 Sonnet 提升了 2.7 個百分點,同時每項代理人任務的成本降低了 11.9%。

顧問工具

我們透過顧問工具將顧問策略引進 API,這是一項伺服器端工具,Sonnet 和 Haiku 會在需要指引或特定任務協助時自動呼叫。

根據我們的評估,搭配 Opus 顧問的 Sonnet 在 BrowseComp2 和 Terminal-Bench 2.03 基準測試上的分數都有所提升,且每項任務的成本低於單獨使用 Sonnet。

顧問策略同樣適用於以 Haiku 作為執行者的情境。在 BrowseComp 測試中,搭配 Opus 顧問的 Haiku 獲得 41.2% 的分數,較其單獨執行時的 19.7% 提升超過一倍。搭配 Opus 顧問的 Haiku 分數雖較單獨的 Sonnet 低 29%,但每項任務的成本卻低了 85%。雖然顧問會增加相對於單獨使用 Haiku 的成本,但整體價格仍僅佔 Sonnet 成本的一小部分,使其成為需要平衡智慧與成本的高量任務的絕佳選擇。

在您的 Messages API 請求中宣告 advisor_20260301,模型交接就會在單一 /v1/messages 請求內完成——無需額外的往返通訊或情境管理。執行者模型會自行決定何時呼叫顧問工具。當執行者呼叫時,我們會將篩選過的情境路由至顧問模型,回傳計畫後,執行者在同一個請求內繼續執行。

response = client.messages.create(
    model="claude-sonnet-4-6",  # 執行者
    tools=[
        {
            "type": "advisor_20260301",
            "name": "advisor",
            "model": "claude-opus-4-6",
            "max_uses": 3,
        },
        # ... 您的其他工具
    ],
    messages=[...]
)

# 顧問 token 會在 usage 區塊中
# 單獨呈報。

計價方式。顧問 token 按顧問模型的費率計費;執行者 token 按執行者模型的費率計費。由於顧問只產生簡短計畫(通常為 400-700 個文字 token),而執行者以較低費率處理完整輸出,整體成本遠低於端對端執行顧問模型。

內建成本控制。設定 max_uses 以限制每次請求的顧問呼叫次數。顧問 token 會在 usage 區塊中單獨呈報,方便您追蹤各等級的支出。

與現有工具並行運作。顧問工具只是 Messages API 請求中的另一個項目。您的代理人可以在同一個迴圈中搜尋網頁執行程式碼,並向 Opus 諮詢。

客戶見證

Bolt 執行長暨創辦人 Eric Simmons:「在處理複雜任務時,它能做出更好的架構決策,而在簡單任務上完全不會增加額外負擔。產出的計畫和執行路徑有著天壤之別。」

Genspark 共同創辦人暨技術長 Kay Zhu:「我們在代理人回合數、工具呼叫和整體分數上都看到明顯改善——比我們自行開發的規劃工具效果更好。」

Eve Legal 機器學習工程師 Anuraj Pandey:「在結構化文件擷取任務中,顧問工具讓 Haiku 4.5 能夠根據複雜度需求動態調整智慧等級,向 Opus 4.6 諮詢,以 5 倍更低的成本達到前線模型的品質。」

開始使用

顧問工具現已在 Claude 平台上以 Beta 版本原生提供。開始使用方式如下:

  1. 新增 Beta 功能標頭:anthropic-beta: advisor-tool-2026-03-01
  2. 在您的 Messages API 請求中新增 advisor_20260301
  3. 根據您的使用情境修改系統提示詞

我們建議您以現有的評估套件分別測試:單獨使用 Sonnet、Sonnet 執行者搭配 Opus 顧問,以及單獨使用 Opus。歡迎查閱文件以進一步了解。

註腳

  1. SWE-bench Multilingual: Sonnet 4.6 單獨執行時使用自適應思考功能。Sonnet 4.6 + 顧問則使用我們建議的程式開發系統提示詞,並關閉思考功能。兩次執行都使用高投入模式,並搭配 bash 和檔案編輯工具。分數為九種語言、每次 300 題、共五次試驗的平均值。所有執行均以 Opus 4.6 作為顧問模型。
  2. BrowseComp: 所有執行均關閉思考功能,並搭配網頁搜尋和網頁擷取工具。Sonnet 4.6 執行使用中等投入模式。Sonnet 4.6 + 顧問使用我們建議的程式開發系統提示詞;Haiku 4.5 + 顧問則未使用。無程式化工具呼叫或情境壓縮。分數依據 1,266 道題目,每題僅嘗試一次。所有執行均以 Opus 4.6 作為顧問模型。
  3. Terminal-Bench 2.0: 所有執行均關閉思考功能,並搭配 bash 和檔案編輯工具。Sonnet 4.6 執行使用中等投入模式。兩次顧問執行均未使用我們建議的程式開發系統提示詞。每項任務在獨立 pod 中執行,配置 3 倍資源和 1 倍逾時時間。分數為 89 項任務、每項嘗試五次的平均值。所有執行均以 Opus 4.6 作為顧問模型。
相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.