エージェント統一総説：Harness、記憶、スキル、プロトコル

こんにちは、PaperAgent です。エージェントそのものではありません！

信頼性の高いエージェント能力は、モデル内部のパラメータ重みから生まれるだけでなく、認知的負荷を構造化されたインフラストラクチャへと外部化することによってもたらされます。

このほど、上海交通大学、中山大学、カーネギーメロン大学などの研究チームは、LLM エージェントにおける外部化、すなわち記憶（Memory）、スキル（Skills）、プロトコル（Protocols）、そしてハーネス工学（Harness Engineering）に関する包括的な総説論文を発表しました。5000 スター獲得、OpenHarness による Harness の敷居の崩壊

「認知的道具（Cognitive Artifacts）」の理論を借用すれば、エージェント用インフラの重要性は単に補助コンポーネントを追加することではなく、解決が困難な認知的負荷をモデルがより信頼性高く処理できる形式へと変換する点にあります。

人類の認知外部化の軌跡（思考→言語→文字→印刷→計算）
LLM エージェントに対応する外部化の軌跡：重み（Weights）から、3 つの外部化次元である記憶（Memory：状態の外部化）、スキル（Skills：専門知識の外部化）、プロトコル（Protocols：相互作用の外部化）を経て、最終的にHarness（ハーネスシステム）へと至る過程。断片的な実験ログのみを与え、Google PaperOrchestra がトップカンファレンス投稿用の LaTeX 論文を執筆

2. 重みからコンテキスト、そして Harness へ：能力の 3 段階シフト

2022 年から 2026 年にかけて、研究の重心がWeights（事前学習、スケーリング則）からContext（RAG、長いコンテキストウィンドウ）、そして Harness（MCP ツールエコシステム、セキュリティ、マルチエージェント協調）へとどのように移行してきたかを示しています。

2.1 重みの時代（Weights）：内在的知識の限界

初期の現代 LLM 展開は、ほぼモデルパラメータのみに依存していました。事前学習により、統計的規則性、世界知識、推論の習慣が重みの中に圧縮されます。スケーリング則は、パラメータ規模とパフォーマンスの間に予測可能な関係があることを明らかにしました。

限界：知識の更新が困難（再学習が必要）、監査が不可能（知識が数十億のパラメータに分散）、個人化の欠如（1 つの重みで数百万ユーザーに対応できても区別できない）。

2.2 コンテキストの時代（Context）：プロンプトエンジニアリングの台頭

能力がモデル内部から入力設計へとシフトし始めました。Few-shot 例、Chain-of-Thought（思考の連鎖）、RAG（検索強化生成）などの技術は、重みを変更せずとも、注意深く設計されたコンテキストのみでモデルの挙動を劇的に変化させられることを証明しました。

重要な転換点：困難な「想起」の問題（モデルがパラメータから知識を回復する必要がある）を、単純な「認識」の問題（モデルが提供されたコンテキストを使用するだけ）へと変換すること。

2.3 Harness の時代：インフラストラクチャ即ち能力

コンテキストウィンドウが飽和し、プロンプトテンプレートが煩雑になるにつれ、エンジニアリングの注目は「モデルをどのような環境で動作させるべきか」へと向けられました。

Harness レイヤーには、永続的記憶ストレージ、ツールレジストリ、プロトコル定義、サンドボックス、サブエージェントのオーケストレーション、評価器などが含まれます。信頼性は、モデルへのプロンプト変更ではなく、環境の変化によって解決されることが増えています。

3. 状態の外部化：記憶システム（Memory）

記憶の外部化は、エージェントの時間的連続性に関する負荷を解決するものです。ネイティブな LLM は「ステートレスな生成器」であり、呼び出しのたびに文脈がリセットされるため、連続性はプロンプト内で再構築されなければなりません。

図 4: 状態としての外部化された記憶 記憶システムの概念図は、生コンテキストから記憶コンテンツへの変換と、4 種類の記憶システムアーキテクチャ（単体コンテキスト、検索ストレージ、階層型オーケストレーション（抽出 - 統合 - 忘却 - 冷却交換）、適応型記憶システム（動的モジュール、フィードバックに基づく戦略最適化））を示しています。

アーキテクチャの進化：

単体コンテキスト：すべての履歴をプロンプト内に保持（単純だが容量に制限あり）
コンテキスト＋検索ストレージ：直近の状態はコンテキスト内、長期の軌跡は外部ストレージ（RAG モード）
階層型記憶とオーケストレーション：明示的な抽出、統合、忘却操作の導入（MemGPT、Memory OS など）
適応型記憶システム：モジュールや検索戦略が経験に応じて反応（MemEvolve、MemRL など）

認知的道具の視点：記憶システムは「際限のない想起」を「制限され、精選された検索」へと変換し、モデルが各意思決定時点で直面するタスク構造を変化させます。

4. 専門知識の外部化：スキルシステム（Skills）

スキルの外部化は、手続き的負荷を解決するものです。モデルはタスクの実行方法を「知っている」かもしれませんが、信頼性のある実行には、ワークフロー、デフォルト値、制約の繰り返し構築が必要であり、これにより、ステップの欠落、ツール使用の不安定性、終了条件の不一致といったばらつきが生じます。

4.1 スキルの 3 つの構成要素

運用手順（Operational Procedure）：タスクの骨格（ステップ分解、フェーズ、依存関係、停止条件）
意思決定のヒューリスティクス（Decision Heuristics）：分岐点における実用的な経験則（何を先に試すか、いつ撤退するか）
規範的制約（Normative Constraints）：許容範囲の境界（テスト要件、範囲制限、アクセス制御）

4.2 実行プリミティブから機能パッケージへ

スキルシステムは 3 つの段階を経ました。

ステージ 1：原子実行プリミティブ（Toolformer など）：単一ツールの安定した呼び出し
ステージ 2：大規模プリミティブ選択（Gorilla、ToolLLM など）：多数のツールからの検索と選択
ステージ 3：パッケージ化された専門知識としてのスキル：タスクカテゴリの運用手法を再利用可能なユニットとしてパッケージ化

図 5: 外部化された専門知識としてのスキルは、取得（専門家による作成、エピソード記憶からの蒸留、環境探索による発見、既存ユニットの組み合わせ）からスキルアーティファクト（運用手順、意思決定のヒューリスティクス、規範的制約）を経て、アクティベーションパイプライン（レジストリ発見、段階的開示、組み合わせ）、そして最終的にランタイムでの実行に至るまでのスキルの完全なライフサイクルを示しています。

主要なメカニズム：

段階的開示：完全なスキルドキュメントを一度に読み込まず、階層的に公開（名前→要約→完全ガイド）
実行バインディング：スキルはプロトコルインターフェースを介して、実行可能なアクション（ツール、API、ファイル、サブエージェント）にバインドされる必要がある
合成可能性：スキルはより高次の調整（逐次、並列、条件分岐、再帰呼び出し）に参加可能

5. 相互作用の外部化：プロトコルシステム（Protocols）

プロトコルの外部化は、調整の負荷を解決するものです。むき出しのモデルは、ツールを呼び出したりサブエージェントに委任したりすべきだと推論できても、明示的な契約がない場合、メッセージ形式、パラメータ構造、ライフサイクルのセマンティクス、リカバリの挙動を即興で作り出す必要があります。

5.1 プロトコルのコンテンツ次元

プロトコルは、以下の 4 つの次元を外部化します。

呼び出し構文（Invocation Grammar）：パラメータ名、型、順序、返却構造（スキーマ化）
ライフサイクルのセマンティクス（Lifecycle Semantics）：多段階の相互作用の調整ルール（ステートマシン、イベントフロー）
権限と信頼の境界：承認ルール、データフロー、監査要件
発見メタデータ（Discovery Metadata）：機能レジストリ、機能カード、スキーマエンドポイント

図 6: 外部化された相互作用としてのプロトコル上図：孤立したモデル呼び出し→API のハードコーディング→標準化プロトコル→エージェント Web への進化。
下図：Harness は 3 つの機能インターフェース（Interact：外部 API/ツールとの相互作用、Perceive：環境/コンテキスト/記憶/フィードバックの知覚、Collaborate：他 LLM/エージェント/人間との協働）を通じて、外部化された相互作用管理を実現します。

5.2 プロトコルファミリの総説

6. 統合された外部化：Harness 工学

Harness は、3 つの外部化次元（記憶、スキル、プロトコル）を担う工学レイヤーであり、オーケストレーションロジック、制約、可観測性、フィードバックループを提供することで、実運用において外部化された認知が信頼性高く機能するようにします。

6.1 Harness とは何か？

Harness は、モデルの外側にある 4 つ目の外部化次元ではなく、モデルがその内部で動作し、知覚、意思決定、行動を行うためのランタイム環境です。

図 3:Harnessed LLM エージェントの外部化アーキテクチャHarness が中心に位置し、その周囲を 3 つの外部化次元（記憶：作業コンテキスト、意味的知識、エピソード経験、個人的記憶／スキル：運用手順、意思決定のヒューリスティクス、規範的制約／プロトコル：エージェント - ユーザー、エージェント - エージェント、エージェント - ツール）が取り囲んでいます。操作要素（サンドボックス、可観測性、圧縮、評価、承認ループ、サブエージェントオーケストレーション）が、Harness コアと外部化モジュール間の相互作用を調整します。

6.2 Harness 設計の 6 つの分析次元

図 7: 認知環境としての Harness 認知環境としての Harness 概念図

基盤モデル（エージェントのコア）が中心にあり、それを 6 つの Harness 次元が協調リングとして取り囲んでいます。記憶（状態の永続化）、スキル（再利用可能なルーチン）、プロトコル（決定論的インターフェース）、権限（サンドボックス、ファイル分離）、制御（再帰的境界、コスト上限）、可観測性（構造化ログ、実行軌跡）です。

6.3 認知環境としての Harness

分散認知理論の観点から見れば、Harness は単なるソフトウェアインフラではなく、エージェントの有効な認知を形成する環境です。何が知覚領域に入り、どのセッションを超えて保持され、どの操作が呼び出可能で、どのアクションに承認が必要で、どの中間状態が修正可能かを決めるものです。

Harness は、際限のないタスクを構造化された環境へと変換し、記憶の外部化、手順の形式化、明示的な制御点の導入、および制約の実行を通じて、認知的作業負荷を再配分します。

7. 交差分析：モジュール間の結合

Harness 内の 3 つの外部化モジュールは孤立しておらず、6 つの重要な相互作用フローを形成しています。

Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
https://arxiv.org/pdf/2604.08224

AI エージェントの設計実践：オーケストレーション、記憶、プラグイン、ワークフロー、コラボレーション

学習するザリガニこそが良いザリガニ：OpenClaw-RL

2026 年、Agentic AI において避けて通れない 2 本の年初総説