Harness 該不該做?史丹佛的答案是:讓 AI 自己來

作者|黃小藝 郵件|huangxiaoyi@pingwest.com

同一個模型,換一套 Harness,程式撰寫基準分數就翻倍了,產業為此爭論了兩個月,現在史丹佛說:別吵了。

圖片

Harness 紅了,但也吵起來了

2026 年開年最熱門的 AI 工程概念,就是 Harness。

它指的是模型之外的一切——prompt 模板、上下文管理、檢索策略、多步推理編排、工具呼叫邏輯。一句話概括:你如何呼叫模型,和模型本身同樣重要,甚至更重要。

OpenAI Codex 團隊花了 5 個月寫了 100 萬行 Agent 程式碼後,得出的最大教訓是「Agent 不難,Harness 才難」;SWE-Bench Mobile 論文中,同一個 Claude Opus 4.5 在不同 Harness 下成功率 2% 對上 12%,差了 6 倍;LangChain 的編碼 Agent 在 Terminal Bench 2.0 上,僅透過最佳化 Harness 而不修改底層模型,得分從 52.8% 提升至 66.5%,排名從第 30 名躍升至第 5 名。

數據足夠有說服力。Harness 這個概念迅速從學術圈破圈,成了產業界的高頻詞彙。

但一個概念一旦爆紅,爭議就隨之而來。為這股 Harness 熱潮潑冷水的,例如 OpenAI 的 Noam Brown,說 Harness 本質是拐杖,模型終將超越它——推理模型出現後,大量精心設計的 Agentic 系統一夜之間被淘汰就是明證;Claude Code 團隊也說,「所有秘密武器都在模型本身,追求最薄的包裝」。

Anthropic 的實踐還提供了一個微妙的視角。他們先為 Opus 4.5 做了一套相當厚重的 Harness 方案——GAN 式對抗架構、三個 Agent 分工、sprint 合約;但 Opus 4.6 出來後,Harness 直接做了減法:去掉 sprint 分解、整體簡化,從 6 小時 200 美元降到 3.8 小時 125 美元。效能更好,成本更低。

這套操作被稱為 Build to Delete——Harness 的厚度取決於模型當前的能力邊界,模型變強了,對應的 Harness 就該被剝離。

所以爭論的本質是什麼?不是 Harness 重不重要,因為數據已經回答了,而是 Harness 不是一個靜態的東西——它需要隨模型迭代、隨任務變化、隨能力邊界移動而持續演化。

史丹佛的 Yoonho Lee 團隊和 MIT 的 Omar Khattab 看到了這個矛盾,然後給出了一個沒想到的回答:

「別爭了。讓 AI 自己做自己的 Harness。」

Meta-Harness:一個「反智」的暴力解法

論文全名是 Meta-Harness: End-to-End Optimization of Model Harnesses,作者包括 Yoonho Lee、Chelsea Finn(史丹佛)、Omar Khattab(MIT,DSPy 框架的創造者)等人。

核心思路的「反智」之處在於:讓一個夠強的 coding Agent 自己一輪又一輪地不斷最佳化 Harness 來適配模型,過程中不壓縮任何東西,全部存下來,自己去翻閱、分析、總結,然後寫出更好的 Harness 框架。

圖片

具體來說,每輪迭代產生的所有內容——候選 Harness 的完整原始碼、逐樣本執行軌跡、評分結果——全部以檔案形式儲存在一個結構化目錄中。沒有資料庫,沒有向量檢索,就是最樸素的檔案和資料夾。

然後,一個 coding Agent 被放進這個系統,任務只有一個:「基於之前所有嘗試的經驗,寫一個更好的 Harness。」

外層迴圈極其簡潔:生成候選 → 評估 → 儲存完整結果 → Agent 分析所有歷史 → 生成新候選 → 重複。沒有花俏的搜尋演算法,沒有演化策略,沒有梯度近似。搜尋的全部「智慧」來自 Agent 自身的程式碼理解和推理能力。

為什麼現有方法不夠

這個方案看起來樸素,但它解決了一個此前所有自動最佳化方法都沒解決的問題:資訊保留。

過去湧現的文字最佳化器——Google 的 OPRO、TextGrad、DeepMind 的 AlphaEvolve——有一個共同的致命缺陷:對歷史回饋的壓縮太激進了。有些方法完全沒有記憶,每輪從零開始;有些只保留一個純量評分(例如,「準確率 62%」);有些把執行過程壓縮成簡短篇摘要。

這就好比讓一個工程師除錯複雜系統,但只告訴他「上一版程式碼得了 62 分」——沒有日誌、沒有堆疊追蹤、沒有錯誤案例。他怎麼知道該改什麼?

Meta-Harness 的做法恰好相反。每輪評估能產生 1000 萬 tokens 的診斷資訊——包括每個樣本的輸入、模型輸出、正確答案、中間推理步驟等完整執行軌跡。

Agent 不是被餵了一段摘要,而是真的在「做研究」——自主決定讀哪些檔案。論文統計,Agent 每輪中位數讀取 82 個檔案。它會看之前表現最好和最差的 Harness 原始碼,抽查特定樣本的執行軌跡,發現「這類樣本模型總是把 A 類判成 B 類」,比對兩個 Harness 的差異,推斷哪個設計決策導致了效能變化。

這個過程,和一個優秀工程師做實驗分析的 workflow 幾乎一模一樣——只不過讀檔案速度快了幾百倍,而且永遠不會累。

為什麼到現在才可行

論文作者特別指出了一個時機問題:Meta-Harness 在 2026 年初才變得可行。原因很簡單——它完全依賴 Coding Agent 在過去一年的質變式能力提升。兩年前的 Agent 根本無法在包含數百個檔案的目錄中自主導航、做有意義的分析、並寫出能跑得通的程式碼。現在可以了。

這不只是一個方法論的突破,更是一個關於時機的故事。Agent 能力的提升,讓一種原本「想法對但執行不了」的方案突然變成了現實。

三個戰場,三種碾壓

理論再漂亮,得拿數據說話。Meta-Harness 在三個差異巨大的任務上做了驗證。

圖片

戰場一:文字分類——4 次迭代抵別人 40 次

文字分類實驗中,Meta-Harness 拿下「48.6% 準確率」,比此前最強手工基線 ACE 高出 7.7 個百分點(ACE 為 40.9%)。更值得注意的是效率:上下文 token 用量 11.4K,ACE 需要 50.8K——少了將近 4 倍。效果更好,成本更低。

收斂速度同樣驚人:僅需 4 次評估迭代,就能匹配需要 40 次評估的競品方法。Agent 每輪從完整軌跡中提取的資訊密度,遠超那些只能看到分數或摘要的最佳化器。

論文還做了分布外泛化測試——將在 5 個資料集上搜尋到的最佳 Harness 直接遷移到 9 個未見資料集,結果同樣優於 ACE。這說明 Meta-Harness 找到的不是針對特定資料集的 trick,而是更好的框架設計。

戰場二:數學推理——自動發現人類沒想到的路由策略

IMO 難度的檢索增強數學推理任務上,Meta-Harness 自動發現了一個「4 路路由 BM25 檢索策略」——系統學會將數學題分為組合、幾何、數論和預設四個類別,對每個類別使用差異化的檢索參數。這種精細化路由設計,沒有任何人類工程師事先指定過。

圖片

遷移能力同樣值得關注:用 GPT-OSS-20B 搜尋到的最佳 Harness,零樣本遷移到 5 個未見推理模型均有提升。這意味著好的框架設計對不同模型都有效——Harness 最佳化和模型選擇是正交的兩個維度。換言之,你在 Harness 工程上的投入不會因為換了模型就打水漂。

戰場三:程式撰寫 Agent——超越人類 Harness 方案

在 Claude Haiku 4.5 組別中,Meta-Harness 確實以 37.6% 拿到了組別第一,超越了所有已知的手工 Harness(如 Goose 和官方的 Claude Code);在 Claude Opus 4.6 組別中,Meta-Harness 以 76.4% 拿到組別第二。

Meta-Harness 在這個任務上還自主發現了一個關鍵 trick——「Environment Bootstrapping」(環境自舉/引導):在 Agent 執行任務前,先自動執行 shell 命令收集沙箱環境快照(作業系統版本、已安裝軟體套件、目錄結構等),注入初始 prompt。

這消除了 Agent 通常需要的 2 到 4 輪環境探索——不用再浪費推理步驟去看看目錄裡有什麼。對 token 預算有限的程式撰寫 Agent 來說,省下這幾輪等於直接提升了有效推理能力。沒有人事先告訴系統要做這個最佳化,它是 Meta-Harness 在搜尋過程中自己發現的。

消融實驗:資訊量就是關鍵槓桿

論文中給出了三種資訊保留策略的比對,結果一目了然:

圖片

• 僅保留分數 → 中位數準確率 34.6%

• 分數 + 摘要 → 34.9%

• 完整軌跡(Meta-Harness)→ 50.0%

完整軌跡帶來 15 個百分點的提升,而摘要幾乎沒有幫助——甚至有時有害,因為壓縮會丟掉看似瑣碎但至關重要的診斷細節。

這對整個「AI 最佳化 AI」領域是一個值得反覆咀嚼的結論:當 Agent 夠強大時,人為的預處理和壓縮不是在幫忙,是在添亂。把原始資訊全部交給 Agent,讓它自己決定看什麼、忽略什麼,效果遠比人類代勞好得多。

同一個 Bitter Lesson,兩種解讀

最後,讓我們回到那場產業爭論——把 Meta-Harness 放進去,事情變得非常有趣。

業界將 Noam Brown 的觀點歸入 Bitter Lesson 陣營,因為提到 Harness 是拐杖:AI 研究反覆證明,依賴人類領域知識的精心設計終將被暴力計算碾平,所以別在框架工程上浪費時間,把賭注押在模型能力的持續成長上。

Meta-Harness 用的也是 Bitter Lesson:AI 研究反覆證明,通用搜尋擊敗精心手工設計——所以不要手工設計 Harness,讓 AI 用通用搜尋自己找最佳解。它沒有否認 Harness 重要,也沒有否認模型會持續變強。它說的是:既然手工 Harness 終將被淘汰,那就讓 AI 來接管。

簡單來說,Noam Brown 的版本是「別費勁做 Harness 了」,Meta-Harness 的版本是「別費勁手工做 Harness 了」。

Meta-Harness 實質上重新定義了這場爭論的座標系。Model 和 Harness 不是非此即彼的選擇。當 Harness 最佳化本身被自動化後,兩條路線自然收斂——模型變強了,Meta-Harness 搜出的最佳 Harness 也會跟著變薄。Anthropic 手動執行的 Build to Delete,在這套框架下會自動發生。

這件事本身就是 Bitter Lesson 說的那種「更大的計算」——那種總會贏的力量。

論文團隊在最後提出了一個更遠的方向:Harness 與模型權重的協同演化。今天模型訓練和框架設計還是兩個獨立過程。但如果 Harness 能被自動最佳化,未來的模型訓練如何把 Harness 納入最佳化迴圈?

巧的是,前阿里 Qwen 技術負責人林俊旸最近也在說類似的事。他在離職後發布的長文 From Reasoning Thinking to Agentic Thinking 裡,把 Harness 的角色推到了更細分的位置——不只是推理時的執行框架,更應該是訓練時的核心基礎建設。Agent 在什麼樣的 Harness 環境裡訓練,決定了它能學到什麼。

現在,史丹佛已經讓 AI 接管了推理時的 Harness,那林俊旸瞄準的是訓練時的 Harness 呢?

這裡有個耐人尋味的區別:推理時的 Harness,目標明確,跑分見高下,AI 比人快;訓練時的 Harness,定義的是模型在這個環境裡訓完之後,整體能力有沒有變強,這是一個長程、稀疏、很難歸因的過程——這一層的搭建,恐怕還得是人來做。

方向有了,誰先動手?2026 年下半年的牌桌上,可能又多一道新題了。

圖片
相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.