Meta-Harness：史丹佛最新Harness論文，林俊旸按讚

大家好，我是PaperAgent，不是Agent！

今天分享林俊旸（曾任阿里Qwen負責人）大老按讚的一篇史丹佛最新Harness論文，他直言：「nice work」美團LongCat-Next這波開源突破，挺顛覆的～

「模型＋Harness」的組合已經超越了單純的模型本身。Agent效能在很大程度上會受到Harness設計與品質的顯著影響。我堅信這是一個正確的研究方向，做得漂亮！

Meta-Harness提出了一種外循環優化框架，讓程式代理自動搜尋並最佳化大型語言模型的「Harness」（即控制資訊儲存、檢索與呈現的程式碼）。透過給予代理對完整歷史經驗（原始碼、執行軌跡、評分）的檔案系統存取權限，該系統在文字分類、數學推理與Agentic編碼三個領域均大幅超越人工設計的Harness，實現了10倍搜尋效率提升與顯著的效能突破。大模型冗餘Token的問題被破解了

為什麼需要優化Harness？

大型語言模型（LLM）的效能不僅取決於模型權重，還嚴重依賴於其Harness——即包裹在模型外部的程式邏輯，決定：

儲存什麼：哪些歷史資訊值得保留
檢索什麼：何時從記憶中提取相關內容
呈現什麼：如何建構給模型的上下文

圖1：（左）在文字分類任務上，Meta-Harness僅用4次評估就達到了其他方法40次評估才能達到的精度；（右）在TerminalBench-2上，Meta-Harness發現的Harness超越所有Claude Haiku基線

研究表明，改變固定模型的Harness可在同一基準上產生高達6倍的效能差距[47]。然而，目前的Harness工程仍主要依賴人工試誤：開發者檢查失敗案例、調整啟發式規則、迭代少量設計。

現有文字優化方法的局限

現有文字優化器（如OPRO、TextGrad、AlphaEvolve）雖然能迭代改進文字，但它們過度壓縮回饋：

僅依賴標量分數
只存取當前候選（無記憶）
將回饋限制在短模板或LLM生成的摘要中

表1：文字優化方法對比。Meta-Harness每步可處理高達1000萬token的診斷資訊，比現有方法高3個數量級

這種壓縮在Harness工程中尤為致命：Harness的影響具有長程依賴性——一個關於儲存或檢索的決策可能在很多步後才顯現影響。壓縮後的回饋往往丟失了將失敗追溯到早期Harness決策所需的資訊。

Meta-Harness 核心方法

Meta-Harness的核心創新是透過檔案系統暴露完整歷史經驗，讓程式代理（而非固定的優化演算法）決定如何診斷並改進Harness。

搜尋循環

圖2：Meta-Harness搜尋循環。（1）代理讀取包含所有先前Harness原始碼、執行軌跡和評分的檔案系統；（2）評估新提出的Harness；（3）將所有日誌存入檔案系統的新目錄

關鍵設計：

Agentic Proposer：使用Claude Code等程式代理，而非原始LLM，可呼叫grep、cat等工具主動查詢檔案系統
完整經驗儲存：每個候選Harness的目錄包含：
- 完整原始碼
- 評估分數
- 執行軌跡（提示、工具呼叫、模型輸出、狀態更新）
選擇性診斷：代理每輪讀取中位數82個檔案（41%原始碼＋40%執行軌跡），而非一次性載入所有內容

為什麼這在程式碼空間有效？

Harness優化發生在程式碼空間：

結構性影響：小的檢索／記憶體邏輯改動可能在多步後產生大影響
可解釋性：透過檢查執行軌跡，代理可推斷失敗原因（如「第15步的檢索導致後續狀態污染」）
自然正則化：程式碼模型傾向於提出連貫演算法而非脆弱的硬編碼方案

實驗結果

1. 線上文字分類

在LawBench、Symptom2Disease、USPTO三個資料集上，使用GPT-OSS-120B作為分類器：

表2：線上文字分類測試結果。Meta-Harness在平均精度上超越ACE 7.7分，同時上下文token使用量減少4倍

關鍵發現：

精度提升：48.6% vs ACE的40.9%，提升7.7分
上下文效率：僅使用11.4K token，而ACE使用50.8K（減少4倍）
速度：僅用4次評估就達到OpenEvolve／TTT-Discover 40次評估的精度（10倍效率提升）

圖3：準確率-上下文token的Pareto前沿。Meta-Harness發現了廣泛的精度-成本權衡曲線

OOD泛化：在9個未見過的文字分類資料集上，Meta-Harness平均精度73.1%，超越ACE的70.2%（表5）。

2. 檢索增強數學推理

在200道IMO級別數學題上測試，檢索語料庫包含50萬＋解題過程：

表6：檢索增強數學問題求解。單個發現的Harness在5個held-out模型上平均提升4.7分

驚人發現：

發現的Harness跨模型泛化：在GPT-5.4-nano、GPT-5.4-mini、Gemini-3.1-Flash-Lite、Gemini-3-Flash和GPT-OSS-20B上均一致提升
平均提升4.7分，超越BM25檢索（＋3.4分）和Dense Retrieval（＋0.3分）

發現的路由策略（圖8）：

組合數學：BM25取20→去重至8→按難度重排→取前3
幾何：1個困難NuminaMath參考＋2個BM25鄰居（無重排）
數論：BM25取12→按詞彙分數、難度和技術顯性重排
代數／其他：自適應K值選擇

3. Agentic編碼：TerminalBench-2

在89個高難度終端任務上評估（需長程自主執行）：

表7：TerminalBench-2通過率。Meta-Harness在Claude Opus 4.6上排名第2，在Claude Haiku 4.5上排名第1

突破：

Opus 4.6：76.4%通過率，超越Terminus-KIRA（74.7%），僅次於ForgeCode（81.8%，但無法重現）
Haiku 4.5：37.6%通過率，超越Goose（35.5%），在較弱模型上提升更顯著

發現的關鍵機制：環境引導在Agent循環開始前，執行shell指令收集環境快照（OS、已安裝語言、套件管理器、／app目錄），注入初始提示，節省3-5輪探索步驟。

深入分析

資訊存取的消融實驗

什麼讓Meta-Harness如此有效？對比三種資訊存取方式：

表3：Proposer資訊消融。僅存取分數：41.3%最佳精度；分數＋摘要：38.7%；完整存取（含執行軌跡）：56.7%

結論：存取原始執行軌跡是Harness優化的關鍵要素。摘要反而可能壓縮掉診斷有用的資訊。

定性分析：代理如何學習？

在TerminalBench-2搜尋日誌中（附錄A.2），代理展現出因果推理能力：

第1-2輪：同時修改結構修復和提示模板→效能回歸
第3輪：明確診斷「回歸根因是提示模板變更，而非結構修復」→隔離測試
第7輪：轉向純加法修改（環境快照）→最佳候選
第8輪：嘗試組合（環境快照＋早期修復）→進一步最佳化

這種從失敗中識別混雜因素並調整策略的能力，正是完整檔案系統存取所賦予的。

發現的Harness範例

Draft-Verification 分類Harness（圖5）

# 兩階段流程
Stage 1: 檢索5個相似範例 → 生成Draft標籤D
Stage 2: 檢索5個確認者(=D) + 5個挑戰者(≠D) → 驗證或修正D

Label-Primed Query Harness（圖6）

建構單個大提示，包含：

Label Primer：列出所有有效標籤
Coverage Block：每類標籤最相關的範例
Contrastive Block：相似但標籤不同的範例對

https://arxiv.org/pdf/2603.28052
Project page: https://yoonholee.com/meta-harness/
Optimized harness: https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact
Meta-Harness: End-to-End Optimization of Model Harnesses

動手設計AI Agents：（編排、記憶、外掛、workflow、協作）

分享兩篇Claude Skills最新論文，有3個核心結論

會學習的龍蝦，才是好龍蝦：OpenClaw-RL

2026，做Agentic AI，繞不開這兩篇開年綜述

每天一篇大模型Paper來鍛鍊我們的思維～已經讀到這了，不妨點個👍、❤️、↗️三連，加個星標⭐，不迷路喔～