Agents 統一綜述：Harness、記憶、技能與協議

大家好，我是 PaperAgent，不是 Agent！

可靠的 Agent 能力不僅來自模型內部的參數權重，更來自將認知負擔外部化到結構化基礎設施中。

近期，上海交通大學、中山大學、卡內基梅隆大學等機構發表長篇論文，對大型語言模型（LLM）Agents 中的外部化機制：記憶（Memory）、技能（Skills）、協議（Protocols）與 Harness 工程進行了統一綜述。5000 star，Harness 門檻被 OpenHarness 打穿了

借用「認知工具」（Cognitive Artifacts）理論：Agent 基礎設施的重要性不僅在於添加輔助元件，而在於將難以解決的認知負擔轉化為模型能更可靠處理的形式。

人類認知外部化的弧線（從思維→語言→文字→印刷→計算）
LLM Agent 對應的外部化弧線：從權重（Weights）通過三個外部化維度——記憶（Memory，外部化狀態）、技能（Skills，外部化專業知識）、協議（Protocols，外部化交互）——最終到達Harness（harness 系統）。只給零散實驗日誌，谷歌 PaperOrchestra 就能寫出頂會投稿 LaTeX 論文

2. 從權重到上下文再到 Harness：能力的三次遷移

展示了從 2022 年到 2026 年，研究重心如何從 Weights（預訓練、Scaling Law）轉向 Context（RAG、長上下文），再到 Harness（MCP 工具生態、安全、多 Agent 協作）。

2.1 權重時代（Weights）：內在知識的侷限

早期的現代 LLM 部署幾乎完全依賴模型參數。預訓練將統計規律、世界知識和推理習慣壓縮進權重中。Scaling Law 揭示了參數規模與性能的可預測關係。

侷限：知識更新困難（需要重新訓練）、難以審計（知識分散在數十億參數中）、缺乏個人化（一套權重服務百萬用戶卻無法區分）。

2.2 上下文時代（Context）：提示工程的崛起

能力開始從模型內部向輸入設計轉移。少樣本示例、思維鏈（Chain-of-Thought）、RAG（檢索增強生成）等技術證明：不必修改權重，僅通過精心設計的上下文就能顯著改變模型行為。

關鍵轉變：將困難的「回憶」問題（模型必須從參數中恢復知識）轉化為簡單的「識別」問題（模型只需使用已提供的上下文）。

2.3 Harness 時代：基礎設施即能力

隨著上下文視窗飽和和提示模板變得笨重，工程注意力轉向「模型應在什麼樣的環境中運行？」。

Harness 層包括：持久記憶儲存、工具註冊表、協議定義、沙箱、子 Agent 編排、評估器等。可靠性越來越多地通過改變環境而非提示模型來解決。

3. 外部化狀態：記憶系統（Memory）

記憶外部化解決的是 Agent 的時間連續性負擔。原生 LLM 是「無狀態生成器」：每次調用都是全新的上下文，連續性必須在提示中重建。

圖 4：作為外部化狀態的記憶展示了從原始上下文到記憶內容的轉換，以及四種記憶系統架構：單體上下文、檢儲存取、分層編排（提取 - 鞏固 - 遺忘 - 冷熱交換）和自適應記憶系統（動態模組、基於回饋的策略優化）。

架構演進：

單體上下文：所有歷史保留在提示中（簡單但容量受限）
上下文 + 檢儲存取：近端狀態在上下文，長期軌跡外部儲存（RAG 模式）
分層記憶與編排：引入顯式的提取、鞏固和遺忘操作（如 MemGPT、Memory OS）
自適應記憶系統：模組和檢索策略能根據經驗響應（如 MemEvolve、MemRL）

認知工具視角：記憶系統將「無界回憶」轉化為「有界、精選的檢索」，改變了模型在每個決策點面臨的任務結構。

4. 外部化專業知識：技能系統（Skills）

技能外部化解決的是程序性負擔。模型可能「知道」如何完成任務，但可靠執行需要重複建構工作流、預設值和約束，這導致方差：遺漏步驟、不穩定的工具使用、不一致的終止條件。

4.1 技能的三個元件

操作程序（Operational Procedure）：任務骨架（步驟分解、階段、依賴、停止條件）
決策啟發（Decision Heuristics）：分支點的實用經驗法則（先嘗試什麼、何時退出）
規範約束（Normative Constraints）：可接受性的邊界（測試要求、範圍限制、存取控制）

4.2 從執行原語到能力包

技能系統經歷了三個階段：

階段 1：原子執行原語（如 Toolformer）——穩定調用單個工具
階段 2：大規模原語選擇（如 Gorilla、ToolLLM）——在大量工具中檢索選擇
階段 3：技能作為打包的專業知識——將任務類別的操作方法打包為可重用單元

圖 5：作為外部化專業知識的技能展示了技能的完整生命週期：從獲取（專家編寫、從情景記憶蒸餾、環境探索發現、現有單元組合）到技能工件（操作程序、決策啟發、規範約束），再到激活流水線（註冊表發現、漸進式揭露、組合），最後在運行時執行。

關鍵機制：

漸進式揭露：不一次性載入完整技能文件，而是分層揭露（名稱→摘要→完整指南）
執行綁定：技能必須通過協議介面綁定到可執行動作（工具、API、檔案、子 Agent）
組合性：技能可參與更高階協調（串列、並行、條件路由、遞迴調用）

5. 外部化交互：協議系統（Protocols）

協議外部化解決的是協調負擔。裸模型可能推斷出應該調用工具或委派子 Agent，但沒有顯式契約時，它必須即興創作訊息格式、參數結構、生命週期語義和恢復行為。

5.1 協議的內容維度

協議將以下四個維度外部化：

調用語法（Invocation Grammar）：參數名稱、類型、順序、返回結構（schema 化）
生命週期語義（Lifecycle Semantics）：多步交互的協調規則（狀態機、事件流）
權限與信任邊界：授權規則、數據流向、審計要求
發現元數據（Discovery Metadata）：能力註冊表、能力卡片、schema 端點

圖 6：作為外部化交互的協議上圖：從孤立模型調用→API 硬編碼→標準化協議→Agent Web 的演進。下圖：Harness 通過三個功能介面實現外部化交互管理：Interact（與外部 API/工具交互）、Perceive（感知環境/上下文/記憶/回饋）、Collaborate（與其他 LLM/Agent/人類協作）。

5.2 協議家族綜述

6. 統一外部化：Harness 工程

Harness 是承載三個外部化維度（記憶、技能、協議）的工程層，提供編排邏輯、約束、可觀測性和回饋循環，使外部化認知在實踐中可靠運行。

6.1 什麼是 Harness？

Harness 不是模型之外的第四個外部化維度，而是運行時環境——模型在其內部運行，通過它感知、決策和行動。

圖 3：Harnessed LLM Agent 的外部化架構Harness 位於中心；三個外部化維度圍繞它運行：記憶（工作上下文、語義知識、情景經驗、個人化記憶）、技能（操作程序、決策啟發、規範約束）、協議（Agent-用戶、Agent-Agent、Agent-工具）。操作元素（沙箱、可觀測性、壓縮、評估、審批循環、子 Agent 編排）調節 Harness 核心與外部化模組的交互。

6.2 Harness 設計的六個分析維度

圖 7：作為認知環境的 Harness

基礎模型（Agent 核心）位於中心；六個 Harness 維度形成協調環：記憶（狀態持久化）、技能（可重用例程）、協議（確定性介面）、權限（沙箱、檔案隔離）、控制（遞迴邊界、成本上限）、可觀測性（結構化日誌、執行軌跡）。

6.3 Harness 作為認知環境

從分散式認知理論看，Harness 不僅僅是軟體基礎設施，而是塑造 Agent 有效認知的環境。它決定了什麼進入感知領域、什麼跨會話保留、哪些操作可調用、哪些行動需要審批、哪些中間狀態可修訂。

Harness 將無界任務轉化為結構化環境，通過外部化記憶、形式化程序、引入顯式控制點和約束執行，重新分配認知工作負載。

7. 交叉分析：模組間耦合

三個外部化模組在 Harness 內並非孤立，而是形成六條關鍵交互流：

Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering https://arxiv.org/pdf/2604.08224

動手設計 AI Agents：（編排、記憶、插件、workflow、協作）

分享兩篇 Claude Skills 最新論文，有 3 個核心結論

會學習的龍蝦，才是好龍蝦：OpenClaw-RL 2026，做 Agentic AI，繞不開這兩篇開年綜述