Meta-HarnessがHaikuの性能を劇的に向上させ、Opusに匹敵するレベルへ！

新智元レポート

編集：傾傾

【新智元ガイド】もし将来、AIエージェントが自分自身のパラメータを調整し、バグを修正できるようになったら、一体何が起こるでしょうか？

先日、スタンフォード大学IRIS Labの博士課程学生であるYoonho Lee氏が、MITおよびウィスコンシン大学の研究者と共に、AIエージェントの最適化ロジックを根本から変える新しい論文を発表しました。

執筆陣は非常に豪華です。指導教官はロボット学習のスター学者であるChelsea Finn氏であり、共同研究者にはDSPyフレームワークの作者であるOmar Khattab氏も名を連ねています。

これまで、業界ではモデル自体のパラメータ数、訓練データ、RLHF（人間からのフィードバックによる強化学習）の競争が激化していました。しかし、「Meta-Harness」は異なるアプローチを採ります。それは、モデルを動作させるための「足場（ハーネス）」こそが、成否を分ける決定的な要因であるという視点です。

これまで、これらの設定はすべて手動で調整されてきました。しかし、Meta-Harnessは、この作業をAI自身に行わせることを可能にします。

結果は完璧でした。Claude Haiku 4.5の成功率は37.6%に達し、すべてのHaikuエージェントの中で首位に躍り出ました。さらに、Claude Opus 4.6は76.4%に達し、トップのForgeCodeに次ぐ2位という快挙を成し遂げました。

モデルは商品であり、ハーネスが成否を決める

ここで言う「ハーネス（Harness）」とは、システムプロンプト、ツールの定義、リトライロジック、コンテキスト管理、サブエージェントの調整、ライフサイクルフックなどを含むインフラストラクチャ全体を指します。

モデル自体が「脳」であるならば、ハーネスはその脳を実際に機能させるための「身体」と言えます。

この概念は2026年に突如として注目を集めました。業界は、同じモデルであっても、ハーネスを変えるだけで性能に絶望的なまでの差が出ることにようやく気づいたのです。

2月、エンジニアのCan Bölük氏が行った実験では、モデルには手を触れず、編集フォーマットのみを変更したところ、15種類のLLMのコーディング性能が5〜14%向上し、出力トークン数は約20%減少しました。

さらに驚くべきことに、GPT-4 Turboは編集フォーマットを変えただけで、正解率が26%から59%へと急上昇しました。同一モデルで性能が2倍以上に差がついた唯一の変数は、ハーネスだったのです。

「Agent = Model + Harness」という方程式が、現在最もホットなトレンドとなっています。モデルが知能を提供し、ハーネスがその知能を「有用なもの」に変えます。

Claude CodeやCodexも同様のことを行っています。つまり、綿密に設計されたハーネスによってモデルの弱点を補完しているのです。

しかし、ここで問題となるのが、現在のハーネスエンジニアリングが高度に人手依存であることです。エンジニアは手動でプロンプトを書き、ツールのインターフェースを調整し、リトライ戦略を設計し、テストを実行し、ログを確認して原因を推測し、コードを修正して再びテストするというサイクルを繰り返しています。

このサイクルは時間と労力がかかるだけでなく、多くの失敗パターンは人間が簡単に診断できるものではありません。Meta-Harnessが目指すのは、このサイクルを自動化することです。

400倍の情報量：AIによる「振り返りと反復」

Meta-Harnessは、オプティマイザ（最適化器）により多くの情報を見せることを試みました。単純に聞こえますが、これこそが過去のあらゆる手法のボトルネックだった点です。

論文内の比較表では、主要なテキスト最適化手法が各ステップで参照できるコンテキスト量が示されています。

Self-Refineは直近の出力と自己批評のみを参照し、約1,000トークンです。OPROは過去数回の案とスコアを参照し、約2,000トークン。TextGrad、AlphaEvolve、GEPAなどのより高度な手法でも、8,000から26,000トークンの範囲に留まっています。

対してMeta-Harnessは、最大1,000万トークンを扱います。その差は実に400倍です。

なぜこれほどの量が必要なのでしょうか。それは、ハーネスエンジニアリングにおける失敗パターンが、実行トレース（軌跡）の詳細の中に隠れていることが多いからです。

あるタスクが失敗したとき、その原因は10ステップ前のツール呼び出しで出力が切り捨てられたことにあり、その結果として後続の推論がすべて狂ったという可能性があります。もしオプティマイザが「失敗」という単一の数値スコアや、圧縮された要約しか見ることができなければ、問題の特定は不可能です。

Meta-Harnessの手法は、プロポーザー（提案者）に完全なファイルシステムを提供することです。このファイルシステムには、過去のすべての候補ハーネスのソースコード、各ラウンドの実行トレース、コマンドログ、エラーメッセージ、タイムアウト挙動、スコアリング結果が格納されています。

プロポーザーはgrepやcatなどの標準的なツールを使用して自ら探索し、見たいファイルや検索したいキーワードを自由に決定できます。

オプティマイザはもはや固定のプロンプトで推論を行うのではなく、情報を検索し、履歴を閲覧し、コードを編集するエージェントへと進化しました。

プロポーザーにはClaude Codeが使用されており、圧縮された情報を与えられる必要はなく、何をどう見るかを自ら決定する能力を持っています。

検索サイクルは非常にシンプルです：

プロポーザーがファイルシステムから履歴を読み取る
どのタスクがなぜ失敗したかを分析する
ターゲットを絞ってハーネスコードを書き直す
新しいハーネスでテストを実行し、結果をファイルシステムに書き戻す
サイクルを継続する

論文では、19のタスクサブセットにおける探索プロセスが示されています。Terminus-KIRAベースラインの28.5%から始まり、第7ラウンドの反復で46.5%まで上昇しました。

各ラウンドでは、具体的な実行トレースに基づいた「反事実的診断（Counterfactual Diagnosis）」が行われます。「もし当時このように処理していたら、結果は変わったか？」という問いを立てるのです。

例えば、第7ラウンドの改善では、最初のLLM呼び出しの前にシェルコマンドを実行し、環境の依存関係情報を初期プロンプトに注入しました。たった一行のコマンドを追加することで、無意味な試行錯誤を省いたのです。このような精緻な診断は、圧縮された要約では不可能です。

89のタスクで小規模モデルが頂点へ

Meta-Harnessは、「テキスト分類」「数学的推論」「コードエージェント」の3つのシナリオでテストを行いました。

コードエージェントのベンチマークにはTerminalBench-2を使用しました。これには、コード変換、分散機械学習の設定、システムプログラミング、バイオインフォマティクス、暗号解読など、Docker化された89のタスクが含まれています。

各タスクはバイナリ評価で、5回の試行の平均値を取るため、難易度は非常に高いものです。長期間の自律実行、複雑な依存関係の処理、切り捨てられたターミナル出力への対応、そして高度なドメイン知識が求められるためです。

このベンチマークは、多くの最先端研究室でコードエージェントの実能力を測定するために使用されており、SWE-benchに次いで広く認められた「現実的な業務」テストセットとなっています。

Meta-Harnessは、システムプロンプト、ツール定義、完了検知ロジック、コンテキスト管理を含む完全なコーディングハーネスを最適化しました。これらすべてが最適化の対象です。

プロポーザーは各タスクの実行トレースを読み取り、失敗パターンを診断し、的確な修正案を提示します。

その結果、Claude Haiku 4.5の成功率は37.6%に達し、すべてのHaiku 4.5エージェントの中で1位となり、2位のGoose (35.5%) を上回りました。また、Claude Opus 4.6の成功率は76.4%に達し、すべてのOpus 4.6エージェントの中で2位（1位はForgeCodeの81.8%）となりました。

強調すべきは、HaikuはClaudeシリーズの中で最も軽量なバージョンであり、パラメータ数はOpusより遥かに少ないということです。従来の考え方では、小規模モデルは大規模モデルに劣り、性能の天井（上限）という決定的な壁がありました。

しかしMeta-Harnessは、ハーネスを最適化することで、小規模モデルの性能天井を大幅に引き上げられることを証明しました。

Meta-Harnessのエンドツーエンド最適化結果のまとめ。（左）テキスト分類タスクにおいて、極めて少ない評価回数でACEやOpenEvolveなどの従来手法を凌駕。（右）TerminalBench-2において、最適化されたClaude Haiku 4.5が37.6%の通過率を達成し、Goose (35.5%) や Terminus-KIRA (33.7%) を超え、小規模モデルでの頂点に立った。

コード以外でも：テキスト分類と数学的推論でも有効

Meta-Harnessの有効性はコードタスクに留まりません。

テキスト分類シナリオでは、LawBench (215カテゴリ)、Symptom2Disease (22カテゴリ)、USPTO-50k (180カテゴリ) の3つのデータセットを使用し、モデルにGPT-OSS-120Bを採用しました。

20ラウンドの進化反復を行い、各ラウンドで2つの候補を生成し、計40の候補ハーネスを作成しました。

発見された最良のハーネスは、テストセットで48.6%の正解率を達成し、従来のSOTA（State-of-the-Art）手法であるACEを7.7ポイント上回りました。

しかも、コストはより低く、Meta-Harnessが使用したコンテキストトークンは45.5Kであったのに対し、ACEは203Kを使用していました。

Meta-Harnessのテキスト分類タスクにおけるパフォーマンス。

さらに、代表的な2つのプログラム探索手法との直接比較実験を行いました。同一のプロポーザーと評価予算を与えた結果、Meta-Harnessは10分の1の評価回数で最終正解率に到達し、さらにその最終正解率は他手法を10ポイント以上上回りました。

ハーネスオプティマイザーの探索進捗比較。Meta-Harness（赤線）は極めて少ない評価回数で最高性能に到達し、OpenEvolve、TTTDiscover、ACEなどの手法を大幅に上回った。これは完全な実行トレースによる効率性の優位性を示している。

理由は、OpenEvolveやPUCTが履歴を固定のプロンプト形式に圧縮し、実行トレースを捨てていたのに対し、Meta-Harnessはすべてを保持していたためです。

数学的推論シナリオでは、Meta-Harnessは検索拡張（RAG）を用いた推論戦略を探索しました。コーパスには8つのオープンデータセットから得られた50万問以上の問題が含まれています。

研究者は250問の探索セットで検索ハーネスを進化させ、その後、IMO（国際数学オリンピック）レベルの200問でテストし、さらに探索時には使用しなかった5つの別モデルでも検証しました。

単一の検索ハーネスを適用しただけで、5つの新モデルにおいて平均4.7ポイント（34.1%から38.8%へ）性能が向上しました。しかも、これはモデル自体を変更せずに達成した結果です。

Meta-Harness検索戦略のモデル間転移能力。

これは、Meta-Harnessが発見した戦略が転移可能であり、特定のモデルにのみ有効な過学習（オーバーフィッティング）テクニックではないことを示しています。

モデル能力の競争は、新たな段階に入ろうとしています。

ここ数年、最先端の研究室は「誰のモデルがより強力か」「パラメータが多いか」「訓練データが膨大か」「ベンチマークスコアが高いか」を競ってきました。しかし現在、GPT-5、Claude 4、Gemini 3といったモデル間では、多くのタスクにおいて決定的な差がつきにくくなっています。

では、真の格差はどこにあるのか。それが「ハーネス」です。

同一のモデルでも、異なるハーネスを組み合わせることで、性能に2倍の差が出ることがあります。しかし、ハーネスエンジニアリングは依然として人間の経験に依存しており、体系的な方法論も自動化ツールも不足していました。

モデルが知能の源泉であり、ハーネスが知能の増幅器であるとするなら、今やそのハーネス自体の最適化さえもAIに任せられる時代になりました。

これは、LLMアプリケーション開発が次のステージに移行したことを告げる指標となるかもしれません。

参考資料：https://x.com/yoonholeee/status/2038640635482456118

Meta-HarnessがHaikuの性能を劇的に向上させ、Opusに匹敵するレベルへ！

関連記事

分享網址