深度解析兩篇最新 Harness 論文:微軟與谷歌如何重塑 AI Agent 的邊界

在大型語言模型(LLM)Agent 飛速演進的今日,如何為 Agent 設計合宜的Harness(約束機制/馬具),已成為至關緊要的課題。本文將深入剖析兩篇最新論文,分別從記憶系統動作約束兩個維度,提出自動化的 Harness 進化方法

  • 一篇來自微軟M⋆,專注於讓每個任務擁有專屬的記憶 Harness 結構。
  • 另一篇來自谷歌AutoHarness,則致力於自動生成程式碼級別的約束,以防止非法動作的發生。
AI Agent 進化趨勢圖解

說實話,研讀完這兩篇論文後,筆者的第一直覺是:AI 研究的風向真的變了,核心已轉向「自進化 Agent」。

若想深入探索此領域,筆者整理了一份前沿論文合集與原始碼,涵蓋自進化 Skills、Agent 系統、世界模型、Context 以及 Harness 等關鍵主題。

識別下方QR Code,回覆「120Agent」即可免費取得全部論文合集及專案原始碼。

論文合集 QR Code
相關資源預覽圖

一、M⋆:每個任務都值得擁有專屬的記憶 Harness

1.1 核心問題:固定記憶結構的局限性

當前 LLM Agent 的記憶系統往往採用「一刀切」的設計——無論是用於對話 Agent 的語意檢索、程式碼 Agent 的技能系統,亦或是專業領域使用的結構化資料庫。然而問題在於:為單一領域優化的記憶設計,往往無法有效遷移至其他領域

Figure 1: 不同任務進化的不同記憶結構示意圖,展示了 Legal、Conversation、Embodied AI、Healthcare 四個領域各自獨特的記憶 Harness 結構

如圖 1 所示,對話任務(LoCoMo)需要實體關係圖來追蹤人物關係,法律查詢(PRBench)需要關聯式資料庫儲存判例,而具身智能(ALFWorld)則需要軌跡查找表。這些結構差異巨大,無法用一個通用方案一網打盡。

1.2 方法:可執行程式進化

M⋆ 將記憶 Harness 表示為一個Python 記憶程式,包含三個核心元件:

  • Schema(模式):定義儲存和檢索的資料格式(使用 Python dataclass)。
  • Logic(邏輯):定義後台操作(寫入/讀取邏輯,可呼叫向量資料庫、SQL 或 LLM)。
  • Instruction(指令):定義 Agent 如何與記憶互動的提示詞常數。
Figure 2: M⋆系統 overview,展示了從 Seed Memory Program 到 Program Pool,經過 Evaluate、Reflect & Mutate、Quality Checks 的迭代過程

系統採用反射式程式碼進化(Reflective Code Evolution)機制:

  1. 驗證循環採樣:使用靜態驗證集和旋轉驗證集評估當前程式。
  2. 編碼 Agent 迭代:基於執行軌跡和失敗案例,由 LLM 分析根本原因並生成程式碼補丁。
  3. 約束檢查與自動修復:包含編譯檢查、冒煙測試、運行時約束(如回傳不超過 3000 字元)。

同時採用基於族群的搜尋策略(Population-based Search)來平衡探索與利用,透過 softmax 溫度採樣選擇高分程式進行變異。

1.3 實驗結果

在四個截然不同的 Benchmark 上(LoCoMo 對話、ALFWorld 具身、HealthBench 醫療、PRBench 法律金融),M⋆ 在 7/8 個配置中取得了最佳表現:

實驗結果對比表格

Table 1: 主實驗結果對比(部分數據),M⋆在多數任務上顯著超越固定記憶基線

Figure 3: 进化轨迹图,展示了在多个 benchmark 上验证分数随迭代的变化,呈现

關鍵發現:

  • 結構多樣性:不同任務進化出截然不同的記憶結構(見圖 4 t-SNE 可視化)。例如 ALFWorld 最佳程式使用簡單列表+LLM 摘要,而 LoCoMo 使用 SQL+ChromaDB 的混合設計。
  • 任務特异性:跨任務遷移實驗證明,將 A 任務進化出的記憶程式用於 B 任務,表現甚至不如通用基線,證明記憶結構必須與任務協同優化。
Figure 4: 程序嵌入空间可视化,不同颜色代表不同 benchmark,显示各任务收敛于不同的结构聚类(LLM-Centric、Semantic Search、Hybrid Retrieval 等)
M⋆系統效能分析圖

二、AutoHarness:自動生成程式碼 Harness 防止非法動作

2.1 核心問題:LLM 的「非法動作」困境

儘管 LLM 在程式碼生成和數學推理上表現卓越,但在嚴格定義的環境中(如棋類遊戲),它們經常提出非法動作。在近期的 Kaggle GameArena 國際象棋比賽中,78% 的 Gemini-2.5-Flash 失敗案例都源於非法移動

傳統解決方法需要為每個遊戲手工編寫約束程式碼(harness),既費力又容易出錯。AutoHarness 提出讓 LLM自動生成並優化這些程式碼約束。

2.2 方法:樹搜尋+Thompson 取樣的程式碼合成

將 Harness 生成建模為程式搜尋問題,使用 Thompson 取樣引導的樹搜尋來平衡探索(嘗試不同邏輯結構)與利用(改進部分有效的 Harness)。

Figure 1: Code-as-harness 學習框架,展示樹結構中節點(程式碼變體)通過 Thompson 取樣選擇,經評估器反饋後由 Refiner 生成新程式碼

支援三種 Harness 模式:

  1. harness-as-action-filter:生成合法動作候选集,由 LLM 排序選擇。
  2. harness-as-action-verifier(主要實驗):LLM 生成動作→程式碼驗證合法性→非法則重試。
  3. harness-as-policy:完全用 Python 程式碼實現策略,測試時無需呼叫 LLM

關鍵機制:

  • 反饋驅動:環境回傳動作是否合法及獎勵訊號。
  • 迭代優化:基於錯誤案例和軌跡,LLM 生成程式碼補丁(V4A 格式)。
  • 編譯 - 修復循環:自動處理語法錯誤和運行時約束違反。

2.3 實驗結果

在 TextArena 的145 個遊戲(排除自由文字對話類)上進行了全面測試:

訓練效率:平均 14.5 次樹搜尋迭代即可達到 100% 合法動作率,其中 19/32 個遊戲在 10 次迭代內收斂。

Figure 2: 6 个代表性游戏的启发式值(合法动作率)随合成迭代次数的变化曲线

對戰性能(2P 遊戲)

  • Gemini-2.5-Flash + Harness vs Gemini-2.5-Pro:9/16 勝率(總體勝率 56.3% vs 38.2%)。
  • 證明較小的模型配合專用 Harness 可擊敗更大模型。
Figure 3: 在 16 个 2P 游戏中与 Gemini-2.5-Pro 对战的胜率/平局/败率柱状图(绿色为胜,红色为败)

單玩家遊戲(1P):平均獎勵 0.745,超越 Gemini-2.5-Pro(0.707)和 GPT-5.2(0.635)。

極限模式:Harness-as-Policy:當讓模型生成完整策略程式碼(而非僅驗證器)時,在 16 個 1P 遊戲上取得0.870 平均獎勵,超越 GPT-5.2-High(0.844),且測試時成本幾乎為零(無需呼叫 LLM)。

Figure 5: 不同 Agent 在 16 个 TextArena 1P 游戏中的平均奖励对比,Harness-as-Policy(橙色)表现最佳

結語

回過頭看這兩篇論文,你會發現一個共同的趨勢:大型模型 Agent 的研究,正在從「如何讓模型更聰明」轉向「如何給 Agent 配一個更合適的 Harness 框架」

順著這個方向繼續深入,需要閱讀的論文遠不止這兩篇。筆者分享一份目前大型模型 Agent 方向的 120 篇高品質論文(含原始碼)。

識別 QR Code,回覆「120Agent」即可取得。

延伸閱讀資源圖

動手設計 AI Agents:(編排、記憶、插件、workflow、協作)

分享兩篇 Claude Skills 最新論文,有 3 個核心結論

會學習的龍蝦,才是好龍蝦:OpenClaw-RL

2026,做 Agentic AI,繞不開這兩篇開年綜述


每天一篇大型模型 Paper 來鍛鍊我們的思維~已經讀到這了,不妨點個👍、❤️、↗️三連,加個星標⭐,不迷路哦~

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.