上海交通大学の54ページのレビュー論文が解き明かす、エージェントの認知外部化の進化の道

最新のベースモデルに乗り換えても、エージェントのパフォーマンスに質的な飛躍は見られない。逆に、同じモデルに永続的な記憶、再利用可能なスキルドキュメント、標準化されたツールインターフェースを追加すれば、効果は劇的に向上する——エージェント開発に携わったことのある人なら、この「モデル以外の要素がモデル自体よりも重要である」という感覚をよく知っているだろう。しかし、この現象の背後には、統一的な説明の枠組みはあるのだろうか？上海交通大学のチームによる54ページのレビュー論文がその答えを提示している。それが外部化（Externalization）である。

最近、上海交通大学は中山大学、上海創智学院、カーネギーメロン大学、OPPOなどの機関と共同で、2026年4月9日にarXivへレビュー論文を投稿した。この論文は初めて「外部化」を統一的な視点とし、LLMエージェントの記憶、スキル、プロトコル、そしてハーネスエンジニアリングという4つの柱を体系的に整理したものである。核心的な主張は以下の通りである。エージェントの実際の進歩は、モデル自体の能力向上ではなく、モデルの外にある認知基盤のインフラにますます依存するようになっている。

論文タイトル：
Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
著者所属：
上海交通大学、中山大学、上海創智学院、カーネギーメロン大学、OPPO
論文リンク：
https://arxiv.org/abs/2604.08224（2026年4月9日投稿）

本論文の筆頭著者は上海交通大学の博士課程学生である周宸宇氏。責任著者はOPPO研究院の王俊博士、および上海交通大学の劉衛文、林江浩、張偉楠教授である。

図1：LLMエージェント設計の組織原理としての外部化。上部：人間の認知外部化の歴史的アーク。中部：LLMエージェントの外部化アーク——記憶、スキル、プロトコルからハーネスへ。下部：文献のパノラマ図

モデルはすでに強力だが、エージェントは依然として信頼性に欠ける

矛盾の原因はどこにあるのか？

過去2年間、大規模モデルのパラメータ規模と推論能力は継続的に向上してきた。しかし、エージェントの現場での導入に精通したエンジニアなら、次のような共通の経験があるはずだ。より強力なベースモデルに乗り換えるよりも、外部インフラを改善する方が、をもたらす向上が顕著であることが多い。永続的な記憶、再利用可能なスキル、標準化されたツールインターフェース、サンドボックスの制約、実行ログ……これらの「モデルに属さないもの」が、エージェントが本当に使い物になるかどうかをますます決定づけるようになっている。

論文では、この現象を3つの構造的なミスマッチに帰着している。

連続性のミスマッチ：コンテキストウィンドウは限られており一時的であるため、モデルはセッションをまたいで状態を安定して維持することができない。毎回のセッションが全新的な始まりとなり、過去に蓄積したコンテキストを一から構築し直す必要がある。
一貫性のミスマッチ：複雑な多段階のプロセスは、安定して実行されるのではなく、再び推論され直すことが多い。同じタスクであっても、呼び出すタイミングが異なれば、実行パスや品質の一貫性を保証するのが難しい。
調整性のミスマッチ：ツール、サービス、他のエージェントとの連携は場当たり的な取り決めに依存しており、脆弱で移植性がない。インターフェースが一度変更されると、呼び出しチェーン全体が連鎖的に機能しなくなる可能性がある。

論文は、認知科学者ドン・ノーマンの「認知アーティファクト（Cognitive Artifacts）」理論を借りてこの現象を説明している。例えば、買い物リストは人間の記憶容量を拡張するものではなく、「思い出す」問題を「認識する」問題へと変換するものである。地図も人間のナビゲーション能力を直接的に強化するものではなく、空間的な関係を暗黙のものから目に見えるものへと変換する。外部アーティファクトの力は、表現の変換（Representational Transformation）にある。つまり、問題の形式を再構築し、主体が既存の能力でより確実に問題を解決できるようにするのだ。

これと同じロジックが、まさにLLMエージェントにおいても起きている。論文の核心的な主張は、外部化こそが近年のエージェントアーキテクチャの進化を理解するための統一的な論理であり、単なる各種エンジニアリング手法の寄せ集めではないということである。

WeightsからHarnessへ：能力の担い手の3度の外部移行

図2：3つの能力レイヤーにおけるコミュニティのテーマの進化（2022–2026）。関心の中心は、パラメータ知識とプロンプトエンジニアリングから、次第にHarnessレイヤーのインフラへと外部移行している。

重み層（2022–2023）：能力はほぼモデルパラメータと同等であり、スケーリング則がナラティブを支配していた。基盤を築いたものの、知識を選択的に更新することが難しく、振る舞いの監査も困難で、パーソナライズはほぼ不可能であった。

コンテキスト層（2023–2024）：プロンプトエンジニアリング、CoT、RAGが台頭し、モデルは凍結されたまま、プロンプトテンプレートが急速に迭代された。困難な「思い出す」問題の一部が「認識する」問題へと変換されたが、状態は一時的であり、ステップをまたぐ調整は常に脆弱であった。

ハーネス層（2024年～現在）：信頼性は外部記憶、ツール登録、プロトコル、サンドボックス、オーケストレーションに依存するようになった。「エージェントエンジニアリングはますますハーネスエンジニアリングとして現れる」——OpenHands、SWE-agent、Deep Researchなどはすべてこのパラダイムに従っている。

殊途同帰：記憶、スキル、プロトコル、Harnessはすべて外部化である

近年のエージェント分野の技術進歩を振り返ると、記憶システム、スキルシステム、プロトコルの標準化、さらにはハーネスエンジニアリング自体が、それぞれ異なる問題を解決する4つの独立した研究路線のように見える。しかし、論文は指摘する。それらが本質的に行っているのは同じこと——特定のレイヤーにおける認知の負担をモデルの内部から外部の構造へと移行させることである。これは偶然の一致ではなく、エージェントが信頼できるデプロイメントに向かうための必然的な収束なのである。4つの路線の交点こそが、外部化である。

記憶は状態を外部化し、「思い出す」ことを「検索する」ことに変換して、連続性のミスマッチを解決する。スキルは専門知識を外部化し、「その場での生成」を「組み合わせと再利用」に変換して、一貫性のミスマッチを解決する。プロトコルは相互作用の構造を外部化し、「場当たり的な取り決め」を「構造化された契約」に変換して、調整性のミスマッチを解決する。そして、ハーネスが外部化するのは、より根本的なもの——エージェントの認知環境そのものである。元々、各モデル呼び出しプロセスに暗黙的に含まれていた実行フロー、サンドボックス、観測、権限が、明示的に抽出され、検査可能、設定可能、ガバナンス可能なインフラとなっている。

記憶：外部化された状態

図3：外部化された状態としての記憶の全プロセス——元のコンテキストから4層の記憶コンテンツへ、記憶システムアーキテクチャ（モノリシック→階層型オーケストレーション→適応型）を経て、最終的にHarnessと統合される。

論文では、エージェントの記憶を4つの階層に整理している。作業コンテキスト（現在のタスクの状態、開いているファイル、部分的に完了した計画）、エピソード的経験（過去の実行記録と失敗の軌跡）、意味的知識（ドメインの事実、ユーザーの嗜好、一般的なヒューリスティクス）、そしてパーソナライズされた記憶（特定のユーザーの習慣と制約）である。

記憶アーキテクチャはニーズに伴って進化する。全ての履歴をプロンプトに詰め込むモノリシック型から、アクティブな状態と外部ストレージによる検索型、意味や時系列に応じて階層的に編成する階層アーキテクチャを経て、フィードバックに基づいて検索戦略を動的に調整する適応型記憶システムへと向かう。中核となる効果は常に一つである。モデルは重みから「思い出す」必要がなくなり、永続的なストレージから「検索する」ようになるのだ。

スキル：外部化された専門知識

図4：外部化された専門知識としてのスキルの全プロセス——獲得（手作業による作成、蒸留、発見、組み合わせ）からスキルアーティファクトへ、活性化パイプライン（登録、段階的開示、組み合わせ）を経て、最終的にランタイムにバインドされる。

スキルシステムは、再利用可能な手続き的な専門知識を明示的なアーティファクトとしてパッケージ化する。完全なスキルは3つの構成要素から成る。操作手順（タスクの骨格と分解ステップ）、決定ヒューリスティクス（分岐決定の局所的戦略）、仕様と制約（コンプライアンス、セキュリティ、操作の境界）である。

スキルの生成には4つのルートがある。手作業による作成（専門家がSKILL.mdなどの指示ファイルを手作業で記述する）、軌跡蒸留（過去の実行履歴から再利用可能な手続きを抽出する）、自己発見（エージェントが環境中で探索・帰納する、Voyagerなど）、組み合わせによる構築（既存の低レベルスキルから高次の能力を組み立てる）である。スキルは「発見」から「実行」に至るまで、登録、段階的開示（必要に応じて要約から完全な詳細へ展開）、組み合わせなどの段階を経て、最終的にランタイムで特定のツール、API、プロトコルにバインドされる。

中核となる効果：モデルは毎回ゼロからワークフローを「即興で生成」する必要がなくなり、事前検証済みのコンポーネントから「組み合わせる」ようになる。

プロトコル：外部化された相互作用構造

図5：ハーネスエンジニアリングにおけるプロトコルの進化——孤立したモデル呼び出しから標準化プロトコル、そして非中心化されたAgentic Webへ。Harnessはプロトコルを通じて3種類の相互作用を管理する：ツールとの相互作用、環境の知覚、エージェントや人間との協調。

プロトコルは、相互作用構造を機械可読な契約として固定し、4種類の負担を外部化する。呼び出し構文（パラメータのフォーマットと型）、ライフサイクルのセマンティクス（状態遷移と完了条件）、権限と信頼の境界（認可ルール）、そして発見メタデータ（利用可能な能力の宣言）である。

論文では、3つの主要なプロトコルファミリーを整理している。

Agent-Toolプロトコル（MCPなど）：JSON-RPCを通じてツールの発見と呼び出しを標準化し、ツールを動的に登録・モジュール化して拡張可能にする。
Agent-Agentプロトコル（A2Aなど）：タスクの委託、進捗の交換、能力発見の構造化されたセマンティクスを定義し、オープンなエージェントエコシステムの相互運用性を支援する。
Agent-Userプロトコル（AG-UIなど）：型付けされた実行イベントと状態ストリームの形で、ランタイムの可観測性と移植性を高め、ユーザーインターフェースがエージェントの動作をリアルタイムで追跡できるようにする。

中核となる効果：場当たり的な取り決めが構造化された契約へと変わり、システム間の調整が脆いものからガバナンス可能なものへと変わる。

ハーネス：統一された認知環境

図6：外部化エージェントの全体的なアーキテクチャ。Harnessが中心に位置し、Memory、Skills、Protocolsという3つの外部化次元がその周囲を取り囲む。サンドボックス、可観測性、圧縮、評価、承認ループなどの操作要素が中間層で調整・機能している。

ハーネスが外部化するのは、前述の3者が依存して機能する認知環境そのものである。元々、各モデル呼び出しプロセスに暗黙的に含まれていた実行フロー、サンドボックス、観測、権限が明示的に抽出され、検査可能、設定可能、ガバナンス可能なインフラとなっている。これは、記憶、スキル、プロトコルを収容するランタイムであると同時に、システム全体を「ブラックボックス」から「ホワイトボックス」へと変える鍵でもある。論文では、その構成を6つの設計次元から分析している。

エージェントのループと制御フロー — 知覚・検索・計画・実行・観察の完全なサイクル。終了条件、再帰の境界、リソース消費を管理する。
サンドボックスと実行の分離 — ファイルシステムの分離、ネットワークの制限、クラウドサンドボックス。これはセキュリティの境界であると同時に、認知の境界でもある。
人間の監視と承認ゲート — 実行前の承認、実行後のレビュー、およびエスカレーションのトリガー。自律性を設定可能なパラメータとして扱う。
可観測性と構造化フィードバック — ツール呼び出しの構造化されたログ、アクションと原因をつなぐ実行のトレーサビリティ。デバッグ、監査、内部フィードバックループをサポートする。
設定、権限、ポリシーのエンコード — ユーザー、プロジェクト、組織の3レベルの階層的制約。宣言型ルールによりランタイムで強制実行される。
コンテキスト予算管理 — 履歴の要約、優先度駆動のコンテンツ淘汰、スキルの段階的ロード。ウィンドウを巡る3つの次元の競合をバランスさせる。

この3つの次元は、ハーネス内部で自己強化のサイクルを形成する。記憶の経験が蒸留されてスキルとなり、スキルの実行軌跡が記憶へと還元される。プロトコルはスキルの呼び出し方法を規定すると同時に、構造化された結果を永続的な状態に書き込む。より豊かな記憶はより良いスキルをもたらし、より良いスキルはより豊かな実行軌跡を生み出し、これが繰り返される。

一つのシナリオ：モデルを変えずに「外部環境」だけを変える

あるソフトウェアエンジニアリングエージェントに、大規模なコードリポジトリ内で新機能を実装し、テストを実行し、PRを提出させる——論文はこの例を用いて、外部化の意義を直接的に説明している。

外部化がない場合。モデルは、リポジトリの構造、プロジェクトの規約、ワークフローの状態、ツールとの相互作用を、すべて脆弱なプロンプトウィンドウに詰め込む必要がある。どこか1箇所でもエラーが起きれば、プロセス全体をやり直さなければならない。タスクの複雑さが増すにつれて、プロンプトテンプレートの管理コストは超線形的に上昇する。
外部化がある場合。永続的なプロジェクト記憶がセッションをまたぐコンテキストを提供し、再利用可能なスキルドキュメントがプロジェクトの規約とワークフローをエンコードし、プロトコル化されたツールインターフェースが呼び出しフォーマットの正確性を常に保証し、ハーネスがステップの順序付け、出力の検証、失敗時のリカバリを担当する。

ベースモデルは全く変更しなくてもよい。変わるのはモデルが直面するタスクの表現方式である。これも論文全体の核心的な論点である。エージェントの信頼性向上は、より強力な推論器からもたらされるものではなく、より良く組織された認知システムからもたらされる。エージェントシステムを評価する問いも、「モデルはどれほど強いか？」から「どの負担がすでに外部化され、モデルが毎回ゼロから解決する必要がなくなっているか？」へと変化するのだ。

今後の方向性

論文の最後に、6つの最先端の方向性が指摘されている。

外部化の境界の拡張 — 計画目標、検証ロジック、オーケストレーション戦略自体が、Harnessによって実行される内容ではなく、Harnessの対象となりつつある。
デジタルから具現化へ — 具現化エージェント（Embodied Agent）も同じ外部化のパターンを経験している。高レベルのプランナーと低遅延の実行モジュールの分離は、まさに物理システムにおける外部化ロジックの写像である。
自己進化するHarness — 強化学習、プログラム合成、模倣学習を通じてインフラを自動更新させることは将来性が高いが、ガバナンスのリスクも同時に拡大する。
セキュリティとガバナンス — 記憶のポイズニング、悪意のあるスキルの注入、プロトコルの欺瞞など、新たな攻撃面には専門的な注目が必要である。強制審査ゲートとソースのトレーサビリティは、成熟したシステムにとって不可欠な保証である。
共有インフラとマルチエージェントエコシステム — 記憶、スキル、プロトコルがエージェント間で共有可能になれば、集合的学習と労働の分割が可能になるが、同時にインフラのドリフトなどのガバナンスの難題も生じる。
外部化の評価 — 既存のベンチマークはインフラの貢献度の測定が著しく不十分であり、移植性、保守性、コンテキスト効率といった新たな次元の確立が待たれている。

記憶からスキル、プロトコル、そしてハーネスへ。このレビュー論文の価値は、技術的な詳細を羅列することではなく、システムレベルの説明枠組みを提供している点にある。一言で要約すれば、より良いエージェントとは、単により良い推論器ではなく、より良く組織された認知システムである。