Meta-Harness:史丹佛最新Harness論文,林俊旸按讚

大家好,我是PaperAgent,不是Agent!

今天分享林俊旸(曾任阿里Qwen負責人)大老按讚的一篇史丹佛最新Harness論文,他直言:「nice work」美團LongCat-Next這波開源突破,挺顛覆的~

「模型+Harness」的組合已經超越了單純的模型本身。Agent效能在很大程度上會受到Harness設計與品質的顯著影響。我堅信這是一個正確的研究方向,做得漂亮!

圖片

Meta-Harness提出了一種外循環優化框架,讓程式代理自動搜尋並最佳化大型語言模型的「Harness」(即控制資訊儲存、檢索與呈現的程式碼)。透過給予代理對完整歷史經驗(原始碼、執行軌跡、評分)的檔案系統存取權限,該系統在文字分類、數學推理與Agentic編碼三個領域均大幅超越人工設計的Harness,實現了10倍搜尋效率提升顯著的效能突破大模型冗餘Token的問題被破解了

為什麼需要優化Harness?

大型語言模型(LLM)的效能不僅取決於模型權重,還嚴重依賴於其Harness——即包裹在模型外部的程式邏輯,決定:

  • 儲存什麼:哪些歷史資訊值得保留

  • 檢索什麼:何時從記憶中提取相關內容

  • 呈現什麼:如何建構給模型的上下文

圖片

圖1:(左)在文字分類任務上,Meta-Harness僅用4次評估就達到了其他方法40次評估才能達到的精度;(右)在TerminalBench-2上,Meta-Harness發現的Harness超越所有Claude Haiku基線

研究表明,改變固定模型的Harness可在同一基準上產生高達6倍的效能差距[47]。然而,目前的Harness工程仍主要依賴人工試誤:開發者檢查失敗案例、調整啟發式規則、迭代少量設計。

現有文字優化方法的局限

現有文字優化器(如OPRO、TextGrad、AlphaEvolve)雖然能迭代改進文字,但它們過度壓縮回饋

  • 僅依賴標量分數

  • 只存取當前候選(無記憶)

  • 將回饋限制在短模板或LLM生成的摘要中

圖片

表1:文字優化方法對比。Meta-Harness每步可處理高達1000萬token的診斷資訊,比現有方法高3個數量級

這種壓縮在Harness工程中尤為致命:Harness的影響具有長程依賴性——一個關於儲存或檢索的決策可能在很多步後才顯現影響。壓縮後的回饋往往丟失了將失敗追溯到早期Harness決策所需的資訊。

Meta-Harness 核心方法

Meta-Harness的核心創新是透過檔案系統暴露完整歷史經驗,讓程式代理(而非固定的優化演算法)決定如何診斷並改進Harness。

搜尋循環

圖片

圖2:Meta-Harness搜尋循環。(1)代理讀取包含所有先前Harness原始碼、執行軌跡和評分的檔案系統;(2)評估新提出的Harness;(3)將所有日誌存入檔案系統的新目錄

關鍵設計

  1. Agentic Proposer:使用Claude Code等程式代理,而非原始LLM,可呼叫grep、cat等工具主動查詢檔案系統

  2. 完整經驗儲存:每個候選Harness的目錄包含:

    • 完整原始碼

    • 評估分數

    • 執行軌跡(提示、工具呼叫、模型輸出、狀態更新)

  3. 選擇性診斷:代理每輪讀取中位數82個檔案(41%原始碼+40%執行軌跡),而非一次性載入所有內容

為什麼這在程式碼空間有效?

Harness優化發生在程式碼空間

  • 結構性影響:小的檢索/記憶體邏輯改動可能在多步後產生大影響

  • 可解釋性:透過檢查執行軌跡,代理可推斷失敗原因(如「第15步的檢索導致後續狀態污染」)

  • 自然正則化:程式碼模型傾向於提出連貫演算法而非脆弱的硬編碼方案

實驗結果

1. 線上文字分類

在LawBench、Symptom2Disease、USPTO三個資料集上,使用GPT-OSS-120B作為分類器:

圖片

表2:線上文字分類測試結果。Meta-Harness在平均精度上超越ACE 7.7分,同時上下文token使用量減少4倍

關鍵發現

  • 精度提升:48.6% vs ACE的40.9%,提升7.7分

  • 上下文效率:僅使用11.4K token,而ACE使用50.8K(減少4倍)

  • 速度:僅用4次評估就達到OpenEvolve/TTT-Discover 40次評估的精度(10倍效率提升)

圖片

圖3:準確率-上下文token的Pareto前沿。Meta-Harness發現了廣泛的精度-成本權衡曲線

OOD泛化:在9個未見過的文字分類資料集上,Meta-Harness平均精度73.1%,超越ACE的70.2%(表5)。

2. 檢索增強數學推理

在200道IMO級別數學題上測試,檢索語料庫包含50萬+解題過程:

圖片

表6:檢索增強數學問題求解。單個發現的Harness在5個held-out模型上平均提升4.7分

驚人發現

  • 發現的Harness跨模型泛化:在GPT-5.4-nano、GPT-5.4-mini、Gemini-3.1-Flash-Lite、Gemini-3-Flash和GPT-OSS-20B上均一致提升

  • 平均提升4.7分,超越BM25檢索(+3.4分)和Dense Retrieval(+0.3分)

發現的路由策略(圖8):

  • 組合數學:BM25取20→去重至8→按難度重排→取前3

  • 幾何:1個困難NuminaMath參考+2個BM25鄰居(無重排)

  • 數論:BM25取12→按詞彙分數、難度和技術顯性重排

  • 代數/其他:自適應K值選擇

3. Agentic編碼:TerminalBench-2

在89個高難度終端任務上評估(需長程自主執行):

圖片

表7:TerminalBench-2通過率。Meta-Harness在Claude Opus 4.6上排名第2,在Claude Haiku 4.5上排名第1

突破

  • Opus 4.6:76.4%通過率,超越Terminus-KIRA(74.7%),僅次於ForgeCode(81.8%,但無法重現)

  • Haiku 4.5:37.6%通過率,超越Goose(35.5%),在較弱模型上提升更顯著

發現的關鍵機制環境引導在Agent循環開始前,執行shell指令收集環境快照(OS、已安裝語言、套件管理器、/app目錄),注入初始提示,節省3-5輪探索步驟。

深入分析

資訊存取的消融實驗

什麼讓Meta-Harness如此有效?對比三種資訊存取方式:

圖片

表3:Proposer資訊消融。僅存取分數:41.3%最佳精度;分數+摘要:38.7%;完整存取(含執行軌跡):56.7%

結論:存取原始執行軌跡是Harness優化的關鍵要素。摘要反而可能壓縮掉診斷有用的資訊。

定性分析:代理如何學習?

在TerminalBench-2搜尋日誌中(附錄A.2),代理展現出因果推理能力

  1. 第1-2輪:同時修改結構修復和提示模板→效能回歸

  2. 第3輪:明確診斷「回歸根因是提示模板變更,而非結構修復」→隔離測試

  3. 第7輪:轉向純加法修改(環境快照)→最佳候選

  4. 第8輪:嘗試組合(環境快照+早期修復)→進一步最佳化

這種從失敗中識別混雜因素並調整策略的能力,正是完整檔案系統存取所賦予的。

發現的Harness範例

Draft-Verification 分類Harness(圖5)

# 兩階段流程
Stage 1: 檢索5個相似範例 → 生成Draft標籤D
Stage 2: 檢索5個確認者(=D) + 5個挑戰者(≠D) → 驗證或修正D

Label-Primed Query Harness(圖6)

建構單個大提示,包含:

  • Label Primer:列出所有有效標籤

  • Coverage Block:每類標籤最相關的範例

  • Contrastive Block:相似但標籤不同的範例對

https://arxiv.org/pdf/2603.28052
Project page: https://yoonholee.com/meta-harness/
Optimized harness: https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact
Meta-Harness: End-to-End Optimization of Model Harnesses

動手設計AI Agents:(編排、記憶、外掛、workflow、協作)

分享兩篇Claude Skills最新論文,有3個核心結論

會學習的龍蝦,才是好龍蝦:OpenClaw-RL

2026,做Agentic AI,繞不開這兩篇開年綜述


每天一篇大模型Paper來鍛鍊我們的思維~已經讀到這了,不妨點個👍、❤️、↗️三連,加個星標⭐,不迷路喔~

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.