深度解析兩篇最新 Harness 論文：微軟與谷歌如何重塑 AI Agent 的邊界

在大型語言模型（LLM）Agent 飛速演進的今日，如何為 Agent 設計合宜的Harness（約束機制/馬具），已成為至關緊要的課題。本文將深入剖析兩篇最新論文，分別從記憶系統與動作約束兩個維度，提出自動化的 Harness 進化方法。

一篇來自微軟的M⋆，專注於讓每個任務擁有專屬的記憶 Harness 結構。
另一篇來自谷歌的AutoHarness，則致力於自動生成程式碼級別的約束，以防止非法動作的發生。

AI Agent 進化趨勢圖解

說實話，研讀完這兩篇論文後，筆者的第一直覺是：AI 研究的風向真的變了，核心已轉向「自進化 Agent」。

若想深入探索此領域，筆者整理了一份前沿論文合集與原始碼，涵蓋自進化 Skills、Agent 系統、世界模型、Context 以及 Harness 等關鍵主題。

識別下方QR Code，回覆「120Agent」即可免費取得全部論文合集及專案原始碼。

論文合集 QR Code

相關資源預覽圖

一、M⋆：每個任務都值得擁有專屬的記憶 Harness

1.1 核心問題：固定記憶結構的局限性

當前 LLM Agent 的記憶系統往往採用「一刀切」的設計——無論是用於對話 Agent 的語意檢索、程式碼 Agent 的技能系統，亦或是專業領域使用的結構化資料庫。然而問題在於：為單一領域優化的記憶設計，往往無法有效遷移至其他領域。

Figure 1: 不同任務進化的不同記憶結構示意圖，展示了 Legal、Conversation、Embodied AI、Healthcare 四個領域各自獨特的記憶 Harness 結構

如圖 1 所示，對話任務（LoCoMo）需要實體關係圖來追蹤人物關係，法律查詢（PRBench）需要關聯式資料庫儲存判例，而具身智能（ALFWorld）則需要軌跡查找表。這些結構差異巨大，無法用一個通用方案一網打盡。

1.2 方法：可執行程式進化

M⋆ 將記憶 Harness 表示為一個Python 記憶程式，包含三個核心元件：

Schema（模式）：定義儲存和檢索的資料格式（使用 Python dataclass）。
Logic（邏輯）：定義後台操作（寫入/讀取邏輯，可呼叫向量資料庫、SQL 或 LLM）。
Instruction（指令）：定義 Agent 如何與記憶互動的提示詞常數。

Figure 2: M⋆系統 overview，展示了從 Seed Memory Program 到 Program Pool，經過 Evaluate、Reflect & Mutate、Quality Checks 的迭代過程

系統採用反射式程式碼進化（Reflective Code Evolution）機制：

驗證循環採樣：使用靜態驗證集和旋轉驗證集評估當前程式。
編碼 Agent 迭代：基於執行軌跡和失敗案例，由 LLM 分析根本原因並生成程式碼補丁。
約束檢查與自動修復：包含編譯檢查、冒煙測試、運行時約束（如回傳不超過 3000 字元）。

同時採用基於族群的搜尋策略（Population-based Search）來平衡探索與利用，透過 softmax 溫度採樣選擇高分程式進行變異。

1.3 實驗結果

在四個截然不同的 Benchmark 上（LoCoMo 對話、ALFWorld 具身、HealthBench 醫療、PRBench 法律金融），M⋆ 在 7/8 個配置中取得了最佳表現：

實驗結果對比表格

Table 1: 主實驗結果對比（部分數據），M⋆在多數任務上顯著超越固定記憶基線

Figure 3: 进化轨迹图，展示了在多个 benchmark 上验证分数随迭代的变化，呈现

關鍵發現：

結構多樣性：不同任務進化出截然不同的記憶結構（見圖 4 t-SNE 可視化）。例如 ALFWorld 最佳程式使用簡單列表+LLM 摘要，而 LoCoMo 使用 SQL+ChromaDB 的混合設計。
任務特异性：跨任務遷移實驗證明，將 A 任務進化出的記憶程式用於 B 任務，表現甚至不如通用基線，證明記憶結構必須與任務協同優化。

Figure 4: 程序嵌入空间可视化，不同颜色代表不同 benchmark，显示各任务收敛于不同的结构聚类（LLM-Centric、Semantic Search、Hybrid Retrieval 等）

M⋆系統效能分析圖

二、AutoHarness：自動生成程式碼 Harness 防止非法動作

2.1 核心問題：LLM 的「非法動作」困境

儘管 LLM 在程式碼生成和數學推理上表現卓越，但在嚴格定義的環境中（如棋類遊戲），它們經常提出非法動作。在近期的 Kaggle GameArena 國際象棋比賽中，78% 的 Gemini-2.5-Flash 失敗案例都源於非法移動。

傳統解決方法需要為每個遊戲手工編寫約束程式碼（harness），既費力又容易出錯。AutoHarness 提出讓 LLM自動生成並優化這些程式碼約束。

2.2 方法：樹搜尋+Thompson 取樣的程式碼合成

將 Harness 生成建模為程式搜尋問題，使用 Thompson 取樣引導的樹搜尋來平衡探索（嘗試不同邏輯結構）與利用（改進部分有效的 Harness）。

Figure 1: Code-as-harness 學習框架，展示樹結構中節點（程式碼變體）通過 Thompson 取樣選擇，經評估器反饋後由 Refiner 生成新程式碼

支援三種 Harness 模式：

harness-as-action-filter：生成合法動作候选集，由 LLM 排序選擇。
harness-as-action-verifier（主要實驗）：LLM 生成動作→程式碼驗證合法性→非法則重試。
harness-as-policy：完全用 Python 程式碼實現策略，測試時無需呼叫 LLM。

關鍵機制：

反饋驅動：環境回傳動作是否合法及獎勵訊號。
迭代優化：基於錯誤案例和軌跡，LLM 生成程式碼補丁（V4A 格式）。
編譯 - 修復循環：自動處理語法錯誤和運行時約束違反。

2.3 實驗結果

在 TextArena 的145 個遊戲（排除自由文字對話類）上進行了全面測試：

訓練效率：平均 14.5 次樹搜尋迭代即可達到 100% 合法動作率，其中 19/32 個遊戲在 10 次迭代內收斂。

Figure 2: 6 个代表性游戏的启发式值（合法动作率）随合成迭代次数的变化曲线

對戰性能（2P 遊戲）：

Gemini-2.5-Flash + Harness vs Gemini-2.5-Pro：9/16 勝率（總體勝率 56.3% vs 38.2%）。
證明較小的模型配合專用 Harness 可擊敗更大模型。

Figure 3: 在 16 个 2P 游戏中与 Gemini-2.5-Pro 对战的胜率/平局/败率柱状图（绿色为胜，红色为败）

單玩家遊戲（1P）：平均獎勵 0.745，超越 Gemini-2.5-Pro（0.707）和 GPT-5.2（0.635）。

極限模式：Harness-as-Policy：當讓模型生成完整策略程式碼（而非僅驗證器）時，在 16 個 1P 遊戲上取得0.870 平均獎勵，超越 GPT-5.2-High（0.844），且測試時成本幾乎為零（無需呼叫 LLM）。

Figure 5: 不同 Agent 在 16 个 TextArena 1P 游戏中的平均奖励对比，Harness-as-Policy（橙色）表现最佳

結語

回過頭看這兩篇論文，你會發現一個共同的趨勢：大型模型 Agent 的研究，正在從「如何讓模型更聰明」轉向「如何給 Agent 配一個更合適的 Harness 框架」。

順著這個方向繼續深入，需要閱讀的論文遠不止這兩篇。筆者分享一份目前大型模型 Agent 方向的 120 篇高品質論文（含原始碼）。

識別 QR Code，回覆「120Agent」即可取得。

延伸閱讀資源圖

動手設計 AI Agents：（編排、記憶、插件、workflow、協作）

分享兩篇 Claude Skills 最新論文，有 3 個核心結論

會學習的龍蝦，才是好龍蝦：OpenClaw-RL

2026，做 Agentic AI，繞不開這兩篇開年綜述

每天一篇大型模型 Paper 來鍛鍊我們的思維～已經讀到這了，不妨點個👍、❤️、↗️三連，加個星標⭐，不迷路哦～

人工智慧大型語言模型演算法研究程式碼生成自動化代理

相關文章推薦

Meta-Harness：史丹佛最新Harness論文，林俊旸按讚人工智慧

Agents 統一綜述：Harness、記憶、技能與協議人工智慧

Star 數狂飆！MSA 重磅開源！人工智慧

席捲記憶體概念股、市值蒸發 900 億美元的谷歌 AI 論文，竟涉學術造假人工智慧

一夜之間，AI 終於擁有「永久記憶」！最難考試 99% 刷爆 SOTA，全網直呼瘋狂人工智慧

分享網址

原始網址：https://mp.weixin.qq.com/s/yPlAxrDxsNxgWKBf8MN94Q