大家好,我是PaperAgent,不是Agent!
今天分享林俊旸(曾任阿里Qwen負責人)大老按讚的一篇史丹佛最新Harness論文,他直言:「nice work」美團LongCat-Next這波開源突破,挺顛覆的~
「模型+Harness」的組合已經超越了單純的模型本身。Agent效能在很大程度上會受到Harness設計與品質的顯著影響。我堅信這是一個正確的研究方向,做得漂亮!
Meta-Harness提出了一種外循環優化框架,讓程式代理自動搜尋並最佳化大型語言模型的「Harness」(即控制資訊儲存、檢索與呈現的程式碼)。透過給予代理對完整歷史經驗(原始碼、執行軌跡、評分)的檔案系統存取權限,該系統在文字分類、數學推理與Agentic編碼三個領域均大幅超越人工設計的Harness,實現了10倍搜尋效率提升與顯著的效能突破。大模型冗餘Token的問題被破解了
為什麼需要優化Harness?
大型語言模型(LLM)的效能不僅取決於模型權重,還嚴重依賴於其Harness——即包裹在模型外部的程式邏輯,決定:
儲存什麼:哪些歷史資訊值得保留
檢索什麼:何時從記憶中提取相關內容
呈現什麼:如何建構給模型的上下文
圖1:(左)在文字分類任務上,Meta-Harness僅用4次評估就達到了其他方法40次評估才能達到的精度;(右)在TerminalBench-2上,Meta-Harness發現的Harness超越所有Claude Haiku基線
研究表明,改變固定模型的Harness可在同一基準上產生高達6倍的效能差距[47]。然而,目前的Harness工程仍主要依賴人工試誤:開發者檢查失敗案例、調整啟發式規則、迭代少量設計。
現有文字優化方法的局限
現有文字優化器(如OPRO、TextGrad、AlphaEvolve)雖然能迭代改進文字,但它們過度壓縮回饋:
僅依賴標量分數
只存取當前候選(無記憶)
將回饋限制在短模板或LLM生成的摘要中
表1:文字優化方法對比。Meta-Harness每步可處理高達1000萬token的診斷資訊,比現有方法高3個數量級
這種壓縮在Harness工程中尤為致命:Harness的影響具有長程依賴性——一個關於儲存或檢索的決策可能在很多步後才顯現影響。壓縮後的回饋往往丟失了將失敗追溯到早期Harness決策所需的資訊。
Meta-Harness 核心方法
Meta-Harness的核心創新是透過檔案系統暴露完整歷史經驗,讓程式代理(而非固定的優化演算法)決定如何診斷並改進Harness。
搜尋循環
圖2:Meta-Harness搜尋循環。(1)代理讀取包含所有先前Harness原始碼、執行軌跡和評分的檔案系統;(2)評估新提出的Harness;(3)將所有日誌存入檔案系統的新目錄
關鍵設計:
Agentic Proposer:使用Claude Code等程式代理,而非原始LLM,可呼叫grep、cat等工具主動查詢檔案系統
完整經驗儲存:每個候選Harness的目錄包含:
完整原始碼
評估分數
執行軌跡(提示、工具呼叫、模型輸出、狀態更新)
選擇性診斷:代理每輪讀取中位數82個檔案(41%原始碼+40%執行軌跡),而非一次性載入所有內容
為什麼這在程式碼空間有效?
Harness優化發生在程式碼空間:
結構性影響:小的檢索/記憶體邏輯改動可能在多步後產生大影響
可解釋性:透過檢查執行軌跡,代理可推斷失敗原因(如「第15步的檢索導致後續狀態污染」)
自然正則化:程式碼模型傾向於提出連貫演算法而非脆弱的硬編碼方案
實驗結果
1. 線上文字分類
在LawBench、Symptom2Disease、USPTO三個資料集上,使用GPT-OSS-120B作為分類器:
表2:線上文字分類測試結果。Meta-Harness在平均精度上超越ACE 7.7分,同時上下文token使用量減少4倍
關鍵發現:
精度提升:48.6% vs ACE的40.9%,提升7.7分
上下文效率:僅使用11.4K token,而ACE使用50.8K(減少4倍)
速度:僅用4次評估就達到OpenEvolve/TTT-Discover 40次評估的精度(10倍效率提升)
圖3:準確率-上下文token的Pareto前沿。Meta-Harness發現了廣泛的精度-成本權衡曲線
OOD泛化:在9個未見過的文字分類資料集上,Meta-Harness平均精度73.1%,超越ACE的70.2%(表5)。
2. 檢索增強數學推理
在200道IMO級別數學題上測試,檢索語料庫包含50萬+解題過程:
表6:檢索增強數學問題求解。單個發現的Harness在5個held-out模型上平均提升4.7分
驚人發現:
發現的Harness跨模型泛化:在GPT-5.4-nano、GPT-5.4-mini、Gemini-3.1-Flash-Lite、Gemini-3-Flash和GPT-OSS-20B上均一致提升
平均提升4.7分,超越BM25檢索(+3.4分)和Dense Retrieval(+0.3分)
發現的路由策略(圖8):
組合數學:BM25取20→去重至8→按難度重排→取前3
幾何:1個困難NuminaMath參考+2個BM25鄰居(無重排)
數論:BM25取12→按詞彙分數、難度和技術顯性重排
代數/其他:自適應K值選擇
3. Agentic編碼:TerminalBench-2
在89個高難度終端任務上評估(需長程自主執行):
表7:TerminalBench-2通過率。Meta-Harness在Claude Opus 4.6上排名第2,在Claude Haiku 4.5上排名第1
突破:
Opus 4.6:76.4%通過率,超越Terminus-KIRA(74.7%),僅次於ForgeCode(81.8%,但無法重現)
Haiku 4.5:37.6%通過率,超越Goose(35.5%),在較弱模型上提升更顯著
發現的關鍵機制:環境引導在Agent循環開始前,執行shell指令收集環境快照(OS、已安裝語言、套件管理器、/app目錄),注入初始提示,節省3-5輪探索步驟。
深入分析
資訊存取的消融實驗
什麼讓Meta-Harness如此有效?對比三種資訊存取方式:
表3:Proposer資訊消融。僅存取分數:41.3%最佳精度;分數+摘要:38.7%;完整存取(含執行軌跡):56.7%
結論:存取原始執行軌跡是Harness優化的關鍵要素。摘要反而可能壓縮掉診斷有用的資訊。
定性分析:代理如何學習?
在TerminalBench-2搜尋日誌中(附錄A.2),代理展現出因果推理能力:
第1-2輪:同時修改結構修復和提示模板→效能回歸
第3輪:明確診斷「回歸根因是提示模板變更,而非結構修復」→隔離測試
第7輪:轉向純加法修改(環境快照)→最佳候選
第8輪:嘗試組合(環境快照+早期修復)→進一步最佳化
這種從失敗中識別混雜因素並調整策略的能力,正是完整檔案系統存取所賦予的。
發現的Harness範例
Draft-Verification 分類Harness(圖5)
# 兩階段流程
Stage 1: 檢索5個相似範例 → 生成Draft標籤D
Stage 2: 檢索5個確認者(=D) + 5個挑戰者(≠D) → 驗證或修正DLabel-Primed Query Harness(圖6)
建構單個大提示,包含:
Label Primer:列出所有有效標籤
Coverage Block:每類標籤最相關的範例
Contrastive Block:相似但標籤不同的範例對
https://arxiv.org/pdf/2603.28052
Project page: https://yoonholee.com/meta-harness/
Optimized harness: https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact
Meta-Harness: End-to-End Optimization of Model Harnesses動手設計AI Agents:(編排、記憶、外掛、workflow、協作)
每天一篇大模型Paper來鍛鍊我們的思維~已經讀到這了,不妨點個👍、❤️、↗️三連,加個星標⭐,不迷路喔~