上海交大 54 頁綜述透徹解析 Agent 認知外部化的演進之路

替換了最新的基座模型，Agent 的表現卻未見質的飛躍；反觀之，若為同一模型加上持久化記憶、可複用的技能文檔和標準化的工具介面，成效立竿見影——對於有過 Agent 工程實作經驗的人而言，這種「模型之外的因素比模型本身更關鍵」的體悟想必不陌生。然而，這現象背後是否存在一個統一的解釋框架？上海交通大學團隊的一篇 54 頁綜述給出了答案：外部化（Externalization）。

近日，上海交通大學聯合中山大學、上海創智學院、卡內基梅隆大學及 OPPO 等機構，於 2026 年 4 月 9 日在 arXiv 提交綜述論文，首次以「外部化」為統一視角，系統性梳理了 LLM Agent 的記憶、技能、協定與 Harness 工程四大支柱。核心觀點在於：Agent 的實質進展，越來越取決於模型之外的外部認知基礎設施，而非模型本身能力的提升。

論文標題：
Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
作者單位：
上海交通大學、中山大學、上海創智學院、卡內基梅隆大學、OPPO
論文連結：
https://arxiv.org/abs/2604.08224（2026 年 4 月 9 日提交）

本文第一作者為上海交通大學博士生周宸宇。通訊作者包括 OPPO 研究院王俊博士，以及上海交通大學劉衛文、林江浩、張偉楠教授。

圖 1：外部化作為 LLM Agent 設計的組織原則。上方：人類認知外部化歷史弧線；中間：LLM Agent 外部化弧線——記憶、技能、協定到 Harness；下方：文獻全景圖

模型已經很強，但 Agent 仍不夠可靠

矛盾出在哪裡？

過去兩年，大模型的參數規模和推理能力持續攀升。但熟悉 Agent 落地應用的工程師都有一個共同體驗：替換更強的基座模型，往往不如改進外部基礎設施帶來的提升顯著。持久化記憶、可複用技能、標準化工具介面、沙箱約束、執行日誌……這些「不屬於模型」的要素，越來越決定著 Agent 能否真正好用。

論文將此現象歸結為三個結構性錯配：

連續性錯配：上下文視窗有限且短暫，模型無法跨會話穩定保持狀態。每次會話都是全新開始，之前累積的上下文需要從頭重建。
一致性錯配：複雜的多步驟流程往往被重新推導，而非被穩定執行。同樣的任務，不同時機調用，執行路徑和品質難以保證一致。
協調性錯配：與工具、服務和其他 Agent 的互動依賴臨時約定，脆弱且不可移植。介面一旦變動，整條調用鏈路可能同步失效。

論文借鑑認知科學家 Don Norman 的「認知工件（Cognitive Artifacts）」理論來解釋這一現象。例如，購物清單不是擴展了人的記憶容量，而是把「回憶」問題變成了「識別」問題；地圖不是讓人導航變強，而是把空間關係從隱性變成可見。外部工件的力量，在於表徵變換（Representational Transformation）——它重新組織了問題的形式，讓主體用現有能力更可靠地解決它。

同樣的邏輯正在 LLM Agent 上發生。論文的核心主張是：外部化才是理解近年 Agent 架構演進的統一邏輯，而不只是各種工程技巧的堆砌。

從 Weights 到 Harness：

能力載體的三次外移

圖 2：社群主題在三個能力層上的演化（2022–2026）。關注重心從參數知識和提示工程，逐步外移到 Harness 層級的基礎設施。

權重層（2022–2023）：能力幾乎等同於模型參數，擴展定律主導敘事。奠定了基礎，但知識難以選擇性更新，行為難以審計，個人化幾乎無從實現。

上下文層（2023–2024）：Prompt 工程、CoT、RAG 興起，模型保持凍結，提示模板快速迭代。困難的「回憶」問題被部分轉化為「識別」問題，但狀態短暫，跨步驟協調始終脆弱。

Harness 層（2024 至今）：可靠性依賴外部記憶、工具註冊、協定、沙箱與編排。「Agent 工程越來越體現為 Harness 工程」——OpenHands、SWE-agent、Deep Research 等均遵循這一模式。

殊途同歸：

記憶、技能、協定、Harness 都是外部化

回顧近年 Agent 領域的技術進展，記憶系統、技能系統、協定標準化，乃至 Harness 工程本身，看似四條獨立的研究路線，各自解決不同的問題。但論文指出，它們本質上做的是同一件事——將特定層面的認知負擔從模型內部遷移到外部結構中。這不是巧合，而是 Agent 走向可靠部署的必然收斂。四條路線的交匯點，正是外部化。

記憶外部化狀態，將「回憶」轉化為「檢索」，解決連續性錯配；技能外部化專業知識，將「即興生成」轉化為「組合複用」，解決一致性錯配；協定外部化互動結構，將「臨時約定」轉化為「結構化契約」，解決協調性錯配。而 Harness 外部化的是更根本的東西——Agent 的認知環境本身：原本隱含在每次模型調用過程裡的執行流、沙箱、觀測、權限，都被顯式地抽出來，成為可檢視、可配置、可治理的基礎設施。

記憶：外部化的狀態

圖 3：記憶作為外部化狀態的全流程——從原始上下文到四層記憶內容，經由記憶系統架構（單體式→分層編排→自適應），最終與 Harness 整合。

論文將 Agent 記憶組織為四個層次：工作上下文（當前任務狀態、開啟的檔案、部分完成的計劃）、情景經驗（過去的運行記錄和失敗軌跡）、語義知識（領域事實、使用者偏好、通用啟發）和個人化記憶（特定使用者的習慣與約束）。

記憶架構隨需求而演進：從將全部歷史塞入提示的單體式，到主動狀態加外部儲存的檢索式，再到按語義或時序分層編排的分層架構，最終走向基於回饋動態調整檢索策略的自適應記憶系統。核心效果始終是同一個：模型不再需要從權重中「回憶」，而是從持久化儲存中「檢索」。

技能：外部化的專業知識

圖 4：技能作為外部化專業知識的全流程——從取得（人工編寫、蒸餾、發現、組合）到技能工件，經由啟動管線（註冊、漸進揭露、組合），最終綁定到運行時。

技能系統將可複用的程序性專業知識打包為顯式工件。一個完整的技能包含三個組成部分：操作程序（任務骨架和分解步驟）、決策啟發（分支決策的區域性策略）、規範約束（合規、安全和操作邊界）。

技能有四條生成路徑：人工編寫（專家手工編寫 SKILL.md 等指令檔案）、軌跡蒸餾（從歷史運行記錄中提取可複用程序）、自主發現（Agent 在環境中探索並歸納，如 Voyager）、組合構建（由已有低層技能組裝高階能力）。技能從「發現」到「執行」經過註冊、漸進式揭露（按需從摘要擴展到完整細節）、組合等階段，最終在運行時綁定到具體工具、API 和協定。

核心效果：模型不再需要每次從零「即興生成」工作流，而是從預驗證的元件中「組合」。

協定：外部化的互動結構

圖 5：協定在 Harness 工程中的演進——從孤立模型調用到標準化協定再到去中心化 Agentic Web。Harness 透過協定管理三類互動：與工具互動、感知環境、與 Agent 和人類協作。

協定將互動結構固定為機器可讀的契約，外部化了四類負擔：調用語法（參數格式與類型）、生命週期語義（狀態轉換與完成條件）、權限與信任邊界（授權規則）、以及發現後設資料（可用能力的宣告）。

論文梳理了三類主要協定族：

Agent-Tool 協定（如 MCP）：透過 JSON-RPC 標準化工具發現與調用，使工具可以動態註冊、模組化擴展。
Agent-Agent 協定（如 A2A）：定義任務委託、進度交換和能力發現的結構化語義，支援開放 Agent 生態的互通性。
Agent-User 協定（如 AG-UI）：以類型化執行事件和狀態流的形式使運行時可觀測、可移植，讓使用者介面能夠即時追蹤 Agent 行為。

核心效果：臨時約定變為結構化契約，跨系統協調從脆弱變得可治理。

Harness：統一的認知環境

圖 6：外部化 Agent 的整體架構。Harness 居於中心，Memory、Skills、Protocols 三大外部化維度環繞其外，沙箱、可觀測性、壓縮、評估、審批迴路等操作元素在中間層協調運作。

Harness 外部化的是前三者賴以運行的認知環境本身。原本隱含在每次模型調用過程裡的執行流、沙箱、觀測、權限，被顯式地提出來，成為可檢視、可配置、可治理的基礎設施——這既是容納記憶、技能、協定的運行時，也是讓整套系統從「黑箱」變成「白箱」的關鍵。論文從六個設計維度分析其構成：

Agent 迴圈與控制流 — 感知 - 檢索 - 規劃 - 執行 - 觀察的完整週期，管控終止條件、遞迴邊界和資源消耗
沙箱與執行隔離 — 檔案系統隔離、網路限制、雲端沙箱，既是安全邊界，也是認知邊界
人類監督與審批門控 — 執行前審批、執行後審查和升級觸發，自主性作為可配置參數
可觀測性與結構化回饋 — 工具調用的結構化日誌、連接動作與前因的執行溯源，支援除錯、審計和內部回饋迴路
配置、權限與策略編碼 — 使用者、專案、組織三級分層約束，以宣告式規則在運行時強制執行
上下文預算管理 — 歷史摘要、優先順序驅動的內容淘汰、技能分階載入，平衡三大維度對視窗的競爭

三大維度在 Harness 內部形成自我強化的迴圈：記憶經驗蒸餾為技能，技能執行軌跡沉澱回記憶；協定規範了技能的調用方式，也將結構化結果寫入持久狀態；更豐富的記憶帶來更好的技能，更好的技能產生更豐富的執行軌跡，依次循環。

一個場景：不換模型，只改「外部環境」

讓一個軟體工程 Agent 在大型程式碼倉庫裡實現新功能、運行測試、提交 PR——論文用這個例子直接說明了外部化的意義。

沒有外部化時。模型需要把倉庫結構、專案約定、工作流狀態和工具互動全部塞進一個脆弱的提示視窗。任何一處出錯，整個流程需要重來。隨著任務複雜度增加，提示模板的管理成本以超線性速度上升。
有了外部化之後。持久化的專案記憶提供跨會話上下文；可複用的技能文檔編碼專案約定和工作流；協定化的工具介面確保調用格式始終正確；Harness 負責步驟排序、輸出驗證和失敗恢復。

基座模型可以完全不變，改變的是它所面對任務的表示方式。這也是整篇論文的 core argument：Agent 可靠性的提升，越來越不來自更強的推理器，而來自被更好地組織起來的認知系統。衡量一個 Agent 系統的問題，也從「模型有多強？」變成了「哪些負擔已經被外部化，讓模型不再需要每次從頭解決？」

未來方向

論文最後指出了六個前沿方向：

外部化邊界的擴展 — 規劃目標、驗證邏輯、編排策略本身都在成為 Harness 物件，而非只是被 Harness 執行的內容
從數位到具身 — 具身 Agent 正在經歷相同的外部化模式。高層規劃器與低延遲執行模組的分離，正是外部化邏輯在物理系統中的映射
自演化 Harness — 透過強化學習、程序合成或模仿學習讓基礎設施自動更新，前景廣闊，但治理風險同步放大
安全與治理 — 記憶投毒、惡意技能注入、協定欺騙等新型攻擊面值得專門關注，強制審查門控與來源溯源是成熟系統的必要保障
共享基設與多智能體生態 — 當記憶、技能、協定可以跨 Agent 共享，集體學習和勞動分工成為可能，同時帶來基礎設施漂移等治理難題
外部化的評估 — 現有 Benchmark 對基礎設施貢獻的度量嚴重不足，可遷移性、可維護性、上下文效率等新維度有待建立

從記憶到技能到協定再到 Harness，這篇綜述的價值不在於羅列技術細節，而在於提供了一個系統級的解釋框架。一句話概括：更好的 Agent 不只是更好的推理器，而是被更好地組織起來的認知系統。

轉載請聯繫本公眾號獲得授權

投稿或尋求報導：liyazhou@jiqizhixin.com