Meta-Harness：スタンフォード大学の最新Harness論文、林俊旸氏が絶賛

皆さんこんにちは、PaperAgentです（Agentではありません！）

本日は林俊旸氏（元Alibaba Qwen責任者）という業界の重鎮が絶賛したスタンフォード大学の最新Harness論文をご紹介します。同氏は「nice work（素晴らしい仕事だ）」と直言し、以下の記事も参照しています：美団のLongCat-Next、このオープンソースの突破口はかなり革新的だ〜

「モデル＋Harness」の組み合わせは、単なるモデルそのものを凌駕している。Agentの性能は、Harnessの設計と品質に大きく左右される。これが正しい研究の方向性であると確信している。素晴らしい仕事だ！

Meta-Harnessは、コーディングエージェント（Coding Agent）が大規模言語モデルの「Harness」（情報の保存・検索・表示を制御するコード）を自動的に探索・最適化する外ループ最適化フレームワークを提案しています。エージェントに完全な履歴経験（ソースコード、実行軌跡、スコア）へのファイルシステムアクセス権を与えることで、テキスト分類、数学推論、エージェントコーディングの3つの領域において、人間が設計したHarnessを大幅に上回り、10倍の探索効率向上と顕著な性能ブレークスルーを実現しました。大規模モデルの冗長Token問題が解決された

なぜHarnessの最適化が必要なのか？

大規模言語モデル（LLM）の性能はモデルの重みだけでなく、そのHarness——モデルの外部を包むコードロジック——に大きく依存しており、以下を決定します：

何を保存するか：どの履歴情報を保持すべきか
何を検索するか：いつ記憶から関連コンテンツを抽出するか
何を表示するか：モデルに与えるコンテキストをどう構築するか

図1: （左）テキスト分類タスクにおいて、Meta-Harnessはわずか4回の評価で他の手法が40回の評価で到達する精度を達成；（右）TerminalBench-2において、Meta-Harnessが発見したHarnessは全てのClaude Haikuベースラインを上回る

研究によると、固定モデルのHarnessを変更するだけで、同一ベンチマーク上で最大6倍の性能差が生じることが示されています[47]。しかし、現在のHarnessエンジニアリングは依然として人間による試行錯誤に頼っており、開発者は失敗ケースを確認し、ヒューリスティックなルールを調整し、少数の設計を反復しています。

既存のテキスト最適化手法の限界

既存のテキストオプティマイザー（OPRO、TextGrad、AlphaEvolveなど）はテキストを反復的に改善できますが、フィードバックを過度に圧縮しています：

スカラー値のみに依存
現在の候補にのみアクセス（記憶なし）
フィードバックを短いテンプレートやLLM生成の要約に制限

表1: テキスト最適化手法の比較。Meta-Harnessは各ステップで最大1000万トークンの診断情報を処理可能であり、既存手法より3桁高い

この圧縮はHarnessエンジニアリングにおいて特に致命的です。Harnessの影響には長期依存性があり——保存や検索に関する決定が、多くのステップを経て初めて影響を显现することがあります。圧縮されたフィードバックは、失敗を初期のHarness決定に溯って特定するために必要な情報を失いがちです。

Meta-Harnessの核心的手法

Meta-Harnessの核心的イノベーションは、ファイルシステムを通じて完全な履歴経験を公開し、コーディングエージェント（固定された最適化アルゴリズムではなく）がHarnessをどう診断・改善するかを決定できるようにすることです。

検索ループ（Search Loop）

図2: Meta-Harnessの検索ループ。（1）エージェントは全ての先行Harnessのソースコード、実行軌跡、スコアを含むファイルシステムを読み取る；（2）新たに提案されたHarnessを評価；（3）全てのログをファイルシステムの新規ディレクトリに保存

主要設計：

Agentic Proposer: 生のLLMではなく、Claude Codeなどのコーディングエージェントを使用。grep、catなどのツールを呼び出してファイルシステムを能動的にクエリ可能
完全な経験保存: 各候補Harnessのディレクトリには以下を含む：
- 完全なソースコード
- 評価スコア
- 実行軌跡（プロンプト、ツール呼び出し、モデル出力、状態更新）
選択的診断: エージェントは各ラウンドで中央値82個のファイルを読み取り（ソースコード41%+実行軌跡40%）、全コンテンツを一度にロードするわけではない

なぜコード空間で有効なのか？

Harness最適化はコード空間で行われます：

構造的影響：小さな検索/メモリロジックの変更が、複数ステップ後に大きな影響を生む可能性
説明可能性：実行軌跡を検査することで、エージェントは失敗原因（例：「ステップ15の検索が後続状態を汚染した」）を推論可能
自然な正則化：コードモデルは脆いハードコード手法ではなく、一貫したアルゴリズムを提案する傾向

実験結果

1. オンラインテキスト分類

LawBench、Symptom2Disease、USPTOの3つのデータセットにおいて、GPT-OSS-120Bを分類器として使用：

表2: オンラインテキスト分類テスト結果。Meta-Harnessは平均精度でACEを7.7ポイント上回り、同時にコンテキストトークン使用量を4分の1に削減

主要な発見：

精度向上: 48.6% vs ACEの40.9%、7.7ポイント向上
コンテキスト効率: わずか11.4Kトークンを使用し、ACEは50.8Kを使用（4分の1に削減）
速度: わずか4回の評価でOpenEvolve/TTT-Discoverの40回評価と同等の精度を達成（10倍効率向上）

図3: 精度-コンテキストトークンのパレートフロンティア。Meta-Harnessは広範な精度-コストトレードオフ曲線を発見

OOD汎化: 未見の9つのテキスト分類データセットにおいて、Meta-Harnessの平均精度は73.1%、ACEの70.2%を上回る（表5）。

2. 検索拡張数学推論

200問のIMOレベル数学問題でテスト。検索コーパスには50万件以上の解法プロセスを含む：

表6: 検索拡張数学問題解決。単一の発見されたHarnessが5つのheld-outモデルで平均4.7ポイント向上

驚異的な発見：

発見されたHarnessはモデル間で汎化：GPT-5.4-nano、GPT-5.4-mini、Gemini-3.1-Flash-Lite、Gemini-3-Flash、GPT-OSS-20Bの全てで一貫して向上
平均4.7ポイント向上、BM25検索（+3.4ポイント）およびDense Retrieval（+0.3ポイント）を上回る

発見されたルーティング戦略（図8）：

組合せ数学: BM25で20件取得→8件に重複削除→難易度で再ランク→上位3件選択
幾何学: 困難なNuminaMath参照1件 + BM25近傍2件（再ランクなし）
数論: BM25で12件取得→語彙スコア、難易度、技術的明示性で再ランク
代数/その他: 適応的K値選択

3. エージェントコーディング：TerminalBench-2

89の高難易度ターミナルタスク（長期的自律実行が必要）で評価：

表7: TerminalBench-2通過率。Meta-HarnessはClaude Opus 4.6で第2位、Claude Haiku 4.5で第1位

ブレークスルー：

Opus 4.6: 76.4%通過率、Terminus-KIRA（74.7%）を上回り、ForgeCode（81.8%、再現不可能）に次ぐ第2位
Haiku 4.5: 37.6%通過率、Goose（35.5%）を上回り、より弱いモデルで向上が顕著

発見された主要メカニズム：環境ブートストラッピング（Environment Bootstrapping）——Agentループ開始前に、シェルコマンドを実行して環境スナップショット（OS、インストール済み言語、パッケージマネージャー、/appディレクトリ）を収集し、初期プロンプトに注入することで、3-5ラウンドの探索ステップを節約。

詳細分析

情報アクセスの消融実験

Meta-Harnessをこれほど効果的にしているのは何か？3つの情報アクセス方式を比較：

表3: Proposer情報の消融実験。スコアのみアクセス：41.3%最高精度；スコア+要約：38.7%；完全アクセス（実行軌跡含む）：56.7%

結論: 生の実行軌跡へのアクセスがHarness最適化の鍵となる要素。要約は逆に診断に有用な情報を圧縮してしまう可能性がある。

定性分析：エージェントはどう学習するか？

TerminalBench-2の検索ログ（付録A.2）において、エージェントは因果推論能力を示しています：

第1-2ラウンド: 構造修正とプロンプトテンプレートを同時に変更 → 性能低下
第3ラウンド: 「低下の根本原因はプロンプトテンプレートの変更であり、構造修正ではない」と明確に診断 → 分離テスト
第7ラウンド: 純粋な追加的変更（環境スナップショット）に転換 → 最高候補
第8ラウンド: 組み合わせ（環境スナップショット+早期修正）を試行 → さらなる最適化

失敗から交絡因子を特定し戦略を調整するこの能力は、まさに完全なファイルシステムアクセスによって可能になるものです。

発見されたHarnessの例

Draft-Verification 分類Harness（図5）

# 2段階プロセス
Stage 1: 5件の類似例を検索 → ドラフトラベルDを生成
Stage 2: 5件の確認者(=D) + 5件の反論者(≠D)を検索 → Dを検証または修正

Label-Primed Query Harness（図6）

単一の大きなプロンプトを構築し、以下を含む：

Label Primer: 全有効ラベルをリスト
Coverage Block: 各ラベルカテゴリの最も関連性の高い例
Contrastive Block: 類似しているがラベルが異なる例のペア

https://arxiv.org/pdf/2603.28052
Project page: https://yoonholee.com/meta-harness/
Optimized harness: https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact
Meta-Harness: End-to-End Optimization of Model Harnesses

AI Agentsを动手设计する：（オーケストレーション、記憶、プラグイン、ワークフロー、協調）

Claude Skillsの最新論文2編を共有、3つの核心的結論あり

学ぶロブスターこそ、良いロブスター：OpenClaw-RL

2026年、Agentic AIをやるなら、この2編の年頭総説は避けて通れない

毎日1本の大規模モデル論文で思考力を鍛えましょう〜ここまで読んでくださったなら、👍、❤️、↗️の3連クリックと星マーク⭐でフォローをお願いします〜