Harness 該不該做？史丹佛的答案是：讓 AI 自己來

作者｜黃小藝　郵件｜huangxiaoyi@pingwest.com

同一個模型，換一套 Harness，程式撰寫基準分數就翻倍了，產業為此爭論了兩個月，現在史丹佛說：別吵了。

Harness 紅了，但也吵起來了

2026 年開年最熱門的 AI 工程概念，就是 Harness。

它指的是模型之外的一切——prompt 模板、上下文管理、檢索策略、多步推理編排、工具呼叫邏輯。一句話概括：你如何呼叫模型，和模型本身同樣重要，甚至更重要。

OpenAI Codex 團隊花了 5 個月寫了 100 萬行 Agent 程式碼後，得出的最大教訓是「Agent 不難，Harness 才難」；SWE-Bench Mobile 論文中，同一個 Claude Opus 4.5 在不同 Harness 下成功率 2% 對上 12%，差了 6 倍；LangChain 的編碼 Agent 在 Terminal Bench 2.0 上，僅透過最佳化 Harness 而不修改底層模型，得分從 52.8% 提升至 66.5%，排名從第 30 名躍升至第 5 名。

數據足夠有說服力。Harness 這個概念迅速從學術圈破圈，成了產業界的高頻詞彙。

但一個概念一旦爆紅，爭議就隨之而來。為這股 Harness 熱潮潑冷水的，例如 OpenAI 的 Noam Brown，說 Harness 本質是拐杖，模型終將超越它——推理模型出現後，大量精心設計的 Agentic 系統一夜之間被淘汰就是明證；Claude Code 團隊也說，「所有秘密武器都在模型本身，追求最薄的包裝」。

Anthropic 的實踐還提供了一個微妙的視角。他們先為 Opus 4.5 做了一套相當厚重的 Harness 方案——GAN 式對抗架構、三個 Agent 分工、sprint 合約；但 Opus 4.6 出來後，Harness 直接做了減法：去掉 sprint 分解、整體簡化，從 6 小時 200 美元降到 3.8 小時 125 美元。效能更好，成本更低。

這套操作被稱為 Build to Delete——Harness 的厚度取決於模型當前的能力邊界，模型變強了，對應的 Harness 就該被剝離。

所以爭論的本質是什麼？不是 Harness 重不重要，因為數據已經回答了，而是 Harness 不是一個靜態的東西——它需要隨模型迭代、隨任務變化、隨能力邊界移動而持續演化。

史丹佛的 Yoonho Lee 團隊和 MIT 的 Omar Khattab 看到了這個矛盾，然後給出了一個沒想到的回答：

「別爭了。讓 AI 自己做自己的 Harness。」

Meta-Harness：一個「反智」的暴力解法

論文全名是 Meta-Harness: End-to-End Optimization of Model Harnesses，作者包括 Yoonho Lee、Chelsea Finn（史丹佛）、Omar Khattab（MIT，DSPy 框架的創造者）等人。

核心思路的「反智」之處在於：讓一個夠強的 coding Agent 自己一輪又一輪地不斷最佳化 Harness 來適配模型，過程中不壓縮任何東西，全部存下來，自己去翻閱、分析、總結，然後寫出更好的 Harness 框架。

具體來說，每輪迭代產生的所有內容——候選 Harness 的完整原始碼、逐樣本執行軌跡、評分結果——全部以檔案形式儲存在一個結構化目錄中。沒有資料庫，沒有向量檢索，就是最樸素的檔案和資料夾。

然後，一個 coding Agent 被放進這個系統，任務只有一個：「基於之前所有嘗試的經驗，寫一個更好的 Harness。」

外層迴圈極其簡潔：生成候選 → 評估 → 儲存完整結果 → Agent 分析所有歷史 → 生成新候選 → 重複。沒有花俏的搜尋演算法，沒有演化策略，沒有梯度近似。搜尋的全部「智慧」來自 Agent 自身的程式碼理解和推理能力。

為什麼現有方法不夠

這個方案看起來樸素，但它解決了一個此前所有自動最佳化方法都沒解決的問題：資訊保留。

過去湧現的文字最佳化器——Google 的 OPRO、TextGrad、DeepMind 的 AlphaEvolve——有一個共同的致命缺陷：對歷史回饋的壓縮太激進了。有些方法完全沒有記憶，每輪從零開始；有些只保留一個純量評分（例如，「準確率 62%」）；有些把執行過程壓縮成簡短篇摘要。

這就好比讓一個工程師除錯複雜系統，但只告訴他「上一版程式碼得了 62 分」——沒有日誌、沒有堆疊追蹤、沒有錯誤案例。他怎麼知道該改什麼？

Meta-Harness 的做法恰好相反。每輪評估能產生 1000 萬 tokens 的診斷資訊——包括每個樣本的輸入、模型輸出、正確答案、中間推理步驟等完整執行軌跡。

Agent 不是被餵了一段摘要，而是真的在「做研究」——自主決定讀哪些檔案。論文統計，Agent 每輪中位數讀取 82 個檔案。它會看之前表現最好和最差的 Harness 原始碼，抽查特定樣本的執行軌跡，發現「這類樣本模型總是把 A 類判成 B 類」，比對兩個 Harness 的差異，推斷哪個設計決策導致了效能變化。

這個過程，和一個優秀工程師做實驗分析的 workflow 幾乎一模一樣——只不過讀檔案速度快了幾百倍，而且永遠不會累。

為什麼到現在才可行

論文作者特別指出了一個時機問題：Meta-Harness 在 2026 年初才變得可行。原因很簡單——它完全依賴 Coding Agent 在過去一年的質變式能力提升。兩年前的 Agent 根本無法在包含數百個檔案的目錄中自主導航、做有意義的分析、並寫出能跑得通的程式碼。現在可以了。

這不只是一個方法論的突破，更是一個關於時機的故事。Agent 能力的提升，讓一種原本「想法對但執行不了」的方案突然變成了現實。

三個戰場，三種碾壓

理論再漂亮，得拿數據說話。Meta-Harness 在三個差異巨大的任務上做了驗證。

戰場一：文字分類——4 次迭代抵別人 40 次

文字分類實驗中，Meta-Harness 拿下「48.6% 準確率」，比此前最強手工基線 ACE 高出 7.7 個百分點（ACE 為 40.9%）。更值得注意的是效率：上下文 token 用量 11.4K，ACE 需要 50.8K——少了將近 4 倍。效果更好，成本更低。

收斂速度同樣驚人：僅需 4 次評估迭代，就能匹配需要 40 次評估的競品方法。Agent 每輪從完整軌跡中提取的資訊密度，遠超那些只能看到分數或摘要的最佳化器。

論文還做了分布外泛化測試——將在 5 個資料集上搜尋到的最佳 Harness 直接遷移到 9 個未見資料集，結果同樣優於 ACE。這說明 Meta-Harness 找到的不是針對特定資料集的 trick，而是更好的框架設計。

戰場二：數學推理——自動發現人類沒想到的路由策略

IMO 難度的檢索增強數學推理任務上，Meta-Harness 自動發現了一個「4 路路由 BM25 檢索策略」——系統學會將數學題分為組合、幾何、數論和預設四個類別，對每個類別使用差異化的檢索參數。這種精細化路由設計，沒有任何人類工程師事先指定過。

遷移能力同樣值得關注：用 GPT-OSS-20B 搜尋到的最佳 Harness，零樣本遷移到 5 個未見推理模型均有提升。這意味著好的框架設計對不同模型都有效——Harness 最佳化和模型選擇是正交的兩個維度。換言之，你在 Harness 工程上的投入不會因為換了模型就打水漂。

戰場三：程式撰寫 Agent——超越人類 Harness 方案

在 Claude Haiku 4.5 組別中，Meta-Harness 確實以 37.6% 拿到了組別第一，超越了所有已知的手工 Harness（如 Goose 和官方的 Claude Code）；在 Claude Opus 4.6 組別中，Meta-Harness 以 76.4% 拿到組別第二。

Meta-Harness 在這個任務上還自主發現了一個關鍵 trick——「Environment Bootstrapping」（環境自舉／引導）：在 Agent 執行任務前，先自動執行 shell 命令收集沙箱環境快照（作業系統版本、已安裝軟體套件、目錄結構等），注入初始 prompt。

這消除了 Agent 通常需要的 2 到 4 輪環境探索——不用再浪費推理步驟去看看目錄裡有什麼。對 token 預算有限的程式撰寫 Agent 來說，省下這幾輪等於直接提升了有效推理能力。沒有人事先告訴系統要做這個最佳化，它是 Meta-Harness 在搜尋過程中自己發現的。

消融實驗：資訊量就是關鍵槓桿

論文中給出了三種資訊保留策略的比對，結果一目了然：

• 僅保留分數 → 中位數準確率 34.6%

• 分數 + 摘要 → 34.9%

• 完整軌跡（Meta-Harness）→ 50.0%

完整軌跡帶來 15 個百分點的提升，而摘要幾乎沒有幫助——甚至有時有害，因為壓縮會丟掉看似瑣碎但至關重要的診斷細節。

這對整個「AI 最佳化 AI」領域是一個值得反覆咀嚼的結論：當 Agent 夠強大時，人為的預處理和壓縮不是在幫忙，是在添亂。把原始資訊全部交給 Agent，讓它自己決定看什麼、忽略什麼，效果遠比人類代勞好得多。

同一個 Bitter Lesson，兩種解讀

最後，讓我們回到那場產業爭論——把 Meta-Harness 放進去，事情變得非常有趣。

業界將 Noam Brown 的觀點歸入 Bitter Lesson 陣營，因為提到 Harness 是拐杖：AI 研究反覆證明，依賴人類領域知識的精心設計終將被暴力計算碾平，所以別在框架工程上浪費時間，把賭注押在模型能力的持續成長上。

Meta-Harness 用的也是 Bitter Lesson：AI 研究反覆證明，通用搜尋擊敗精心手工設計——所以不要手工設計 Harness，讓 AI 用通用搜尋自己找最佳解。它沒有否認 Harness 重要，也沒有否認模型會持續變強。它說的是：既然手工 Harness 終將被淘汰，那就讓 AI 來接管。

簡單來說，Noam Brown 的版本是「別費勁做 Harness 了」，Meta-Harness 的版本是「別費勁手工做 Harness 了」。

Meta-Harness 實質上重新定義了這場爭論的座標系。Model 和 Harness 不是非此即彼的選擇。當 Harness 最佳化本身被自動化後，兩條路線自然收斂——模型變強了，Meta-Harness 搜出的最佳 Harness 也會跟著變薄。Anthropic 手動執行的 Build to Delete，在這套框架下會自動發生。

這件事本身就是 Bitter Lesson 說的那種「更大的計算」——那種總會贏的力量。

論文團隊在最後提出了一個更遠的方向：Harness 與模型權重的協同演化。今天模型訓練和框架設計還是兩個獨立過程。但如果 Harness 能被自動最佳化，未來的模型訓練如何把 Harness 納入最佳化迴圈？

巧的是，前阿里 Qwen 技術負責人林俊旸最近也在說類似的事。他在離職後發布的長文 From Reasoning Thinking to Agentic Thinking 裡，把 Harness 的角色推到了更細分的位置——不只是推理時的執行框架，更應該是訓練時的核心基礎建設。Agent 在什麼樣的 Harness 環境裡訓練，決定了它能學到什麼。

現在，史丹佛已經讓 AI 接管了推理時的 Harness，那林俊旸瞄準的是訓練時的 Harness 呢？

這裡有個耐人尋味的區別：推理時的 Harness，目標明確，跑分見高下，AI 比人快；訓練時的 Harness，定義的是模型在這個環境裡訓完之後，整體能力有沒有變強，這是一個長程、稀疏、很難歸因的過程——這一層的搭建，恐怕還得是人來做。

方向有了，誰先動手？2026 年下半年的牌桌上，可能又多一道新題了。

Harness 該不該做？史丹佛的答案是：讓 AI 自己來

相關文章推薦

分享網址