在大型語言模型(LLM)Agent 飛速演進的今日,如何為 Agent 設計合宜的Harness(約束機制/馬具),已成為至關緊要的課題。本文將深入剖析兩篇最新論文,分別從記憶系統與動作約束兩個維度,提出自動化的 Harness 進化方法。
- 一篇來自微軟的M⋆,專注於讓每個任務擁有專屬的記憶 Harness 結構。
- 另一篇來自谷歌的AutoHarness,則致力於自動生成程式碼級別的約束,以防止非法動作的發生。
說實話,研讀完這兩篇論文後,筆者的第一直覺是:AI 研究的風向真的變了,核心已轉向「自進化 Agent」。
若想深入探索此領域,筆者整理了一份前沿論文合集與原始碼,涵蓋自進化 Skills、Agent 系統、世界模型、Context 以及 Harness 等關鍵主題。
識別下方QR Code,回覆「120Agent」即可免費取得全部論文合集及專案原始碼。
一、M⋆:每個任務都值得擁有專屬的記憶 Harness
1.1 核心問題:固定記憶結構的局限性
當前 LLM Agent 的記憶系統往往採用「一刀切」的設計——無論是用於對話 Agent 的語意檢索、程式碼 Agent 的技能系統,亦或是專業領域使用的結構化資料庫。然而問題在於:為單一領域優化的記憶設計,往往無法有效遷移至其他領域。
如圖 1 所示,對話任務(LoCoMo)需要實體關係圖來追蹤人物關係,法律查詢(PRBench)需要關聯式資料庫儲存判例,而具身智能(ALFWorld)則需要軌跡查找表。這些結構差異巨大,無法用一個通用方案一網打盡。
1.2 方法:可執行程式進化
M⋆ 將記憶 Harness 表示為一個Python 記憶程式,包含三個核心元件:
- Schema(模式):定義儲存和檢索的資料格式(使用 Python dataclass)。
- Logic(邏輯):定義後台操作(寫入/讀取邏輯,可呼叫向量資料庫、SQL 或 LLM)。
- Instruction(指令):定義 Agent 如何與記憶互動的提示詞常數。
系統採用反射式程式碼進化(Reflective Code Evolution)機制:
- 驗證循環採樣:使用靜態驗證集和旋轉驗證集評估當前程式。
- 編碼 Agent 迭代:基於執行軌跡和失敗案例,由 LLM 分析根本原因並生成程式碼補丁。
- 約束檢查與自動修復:包含編譯檢查、冒煙測試、運行時約束(如回傳不超過 3000 字元)。
同時採用基於族群的搜尋策略(Population-based Search)來平衡探索與利用,透過 softmax 溫度採樣選擇高分程式進行變異。
1.3 實驗結果
在四個截然不同的 Benchmark 上(LoCoMo 對話、ALFWorld 具身、HealthBench 醫療、PRBench 法律金融),M⋆ 在 7/8 個配置中取得了最佳表現:
Table 1: 主實驗結果對比(部分數據),M⋆在多數任務上顯著超越固定記憶基線
關鍵發現:
- 結構多樣性:不同任務進化出截然不同的記憶結構(見圖 4 t-SNE 可視化)。例如 ALFWorld 最佳程式使用簡單列表+LLM 摘要,而 LoCoMo 使用 SQL+ChromaDB 的混合設計。
- 任務特异性:跨任務遷移實驗證明,將 A 任務進化出的記憶程式用於 B 任務,表現甚至不如通用基線,證明記憶結構必須與任務協同優化。
二、AutoHarness:自動生成程式碼 Harness 防止非法動作
2.1 核心問題:LLM 的「非法動作」困境
儘管 LLM 在程式碼生成和數學推理上表現卓越,但在嚴格定義的環境中(如棋類遊戲),它們經常提出非法動作。在近期的 Kaggle GameArena 國際象棋比賽中,78% 的 Gemini-2.5-Flash 失敗案例都源於非法移動。
傳統解決方法需要為每個遊戲手工編寫約束程式碼(harness),既費力又容易出錯。AutoHarness 提出讓 LLM自動生成並優化這些程式碼約束。
2.2 方法:樹搜尋+Thompson 取樣的程式碼合成
將 Harness 生成建模為程式搜尋問題,使用 Thompson 取樣引導的樹搜尋來平衡探索(嘗試不同邏輯結構)與利用(改進部分有效的 Harness)。
支援三種 Harness 模式:
- harness-as-action-filter:生成合法動作候选集,由 LLM 排序選擇。
- harness-as-action-verifier(主要實驗):LLM 生成動作→程式碼驗證合法性→非法則重試。
- harness-as-policy:完全用 Python 程式碼實現策略,測試時無需呼叫 LLM。
關鍵機制:
- 反饋驅動:環境回傳動作是否合法及獎勵訊號。
- 迭代優化:基於錯誤案例和軌跡,LLM 生成程式碼補丁(V4A 格式)。
- 編譯 - 修復循環:自動處理語法錯誤和運行時約束違反。
2.3 實驗結果
在 TextArena 的145 個遊戲(排除自由文字對話類)上進行了全面測試:
訓練效率:平均 14.5 次樹搜尋迭代即可達到 100% 合法動作率,其中 19/32 個遊戲在 10 次迭代內收斂。
對戰性能(2P 遊戲):
- Gemini-2.5-Flash + Harness vs Gemini-2.5-Pro:9/16 勝率(總體勝率 56.3% vs 38.2%)。
- 證明較小的模型配合專用 Harness 可擊敗更大模型。
單玩家遊戲(1P):平均獎勵 0.745,超越 Gemini-2.5-Pro(0.707)和 GPT-5.2(0.635)。
極限模式:Harness-as-Policy:當讓模型生成完整策略程式碼(而非僅驗證器)時,在 16 個 1P 遊戲上取得0.870 平均獎勵,超越 GPT-5.2-High(0.844),且測試時成本幾乎為零(無需呼叫 LLM)。
結語
回過頭看這兩篇論文,你會發現一個共同的趨勢:大型模型 Agent 的研究,正在從「如何讓模型更聰明」轉向「如何給 Agent 配一個更合適的 Harness 框架」。
順著這個方向繼續深入,需要閱讀的論文遠不止這兩篇。筆者分享一份目前大型模型 Agent 方向的 120 篇高品質論文(含原始碼)。
識別 QR Code,回覆「120Agent」即可取得。
動手設計 AI Agents:(編排、記憶、插件、workflow、協作)
分享兩篇 Claude Skills 最新論文,有 3 個核心結論
每天一篇大型模型 Paper 來鍛鍊我們的思維~已經讀到這了,不妨點個👍、❤️、↗️三連,加個星標⭐,不迷路哦~