ハーネスは作るべきか?スタンフォードの答えは「AIに自分で作らせろ」

同じモデルでも、ハーネスを変えるだけでプログラミング基準点が倍増し、業界は2か月にわたって議論を続けてきたが、スタンフォード大学は「もう議論する必要はない」と言っている。

ハーネスが注目を集めたが、議論も巻き起こった

2026年の年初に最も注目を集めたAIエンジニアリングの概念は、ハーネス(Harness)である。

これはモデル自体以外の全てを指す——プロンプトテンプレート、コンテキスト管理、検索戦略、多段階推論の構成、ツール呼び出しロジック。一言で言えば:モデルをどう呼び出すかは、モデル自体と同等か、それ以上に重要だ。

OpenAI Codexチームが5か月かけて100万行のエージェント・コードを書いた後、得た最大の教訓は「エージェントは難しくない、ハーネスこそが難しい」というものだった。SWE-Bench Mobile論文では、同じClaude Opus 4.5でもハーネスが違えば成功率が2%対12%となり、6倍の差が出た。LangChainのコーディング・エージェントはTerminal Bench 2.0において、基盤モデルを変更せずハーネスのみ最適化することで、スコアを52.8%から66.5%まで向上させ、ランキングは30位から5位に躍進した。

データは十分に説得力がある。このハーネスという概念は急速に学術界を飛び出し、産業界の頻出単語となった。

しかし、概念が注目を集めると、議論もついてくる。このハーネス・ブームに冷や水を浴びせたのは、例えばOpenAIのNoam Brownで、「ハーネスの本質は杖(つえ)であり、モデルは最終的にそれを超えるだろう」と述べた——推論モデル登場後、丹精込めて設計されたエージェンティック・システムが一夜にして消え去ったのが証拠だ。Claude Codeチームも「全ての秘密兵器はモデル本体にあり、最も薄い包装を追求すべきだ」と語っている。

Anthropicの実践は微妙な視点を提供した。彼らはまずOpus 4.5のためにかなり重厚なハーネス・スキームを構築した——GAN式対抗アーキテクチャ、3エージェント分担、sprint契約などだ。しかしOpus 4.6が登場すると、ハーネスは即座に簡素化された:sprint分解を除去し、全体的に簡潔化し、6時間200ドルから3.8時間125ドルに削減された。性能は向上し、コストは低下した。

この一連の操作は「Build to Delete(構築して削除)」と呼ばれている——ハーネスの厚さはモデルの現在の能力限界に依存し、モデルが強くなれば、対応するハーネスは剥ぎ取られるべきだという考え方だ。

議論の本質は何か?ハーネスが重要かどうかではない。データは既に答えを出している。本質はハーネスは静的なものではないということだ——モデルの反復に伴い、タスクの変化に伴い、能力限界の移動に伴って継続的に進化する必要がある。

スタンフォードのYoonho LeeチームとMITのOmar Khattabはこの矛盾を見抜き、予想もしない答えを導き出した:

「議論はやめよう。AIに自分のハーネスを作らせればいい。」

Meta-Harness:「常識外れ」の力技ソリューション

論文の正式名称は Meta-Harness: End-to-End Optimization of Model Harnesses で、著者にはYoonho Lee、Chelsea Finn(Stanford)、Omar Khattab(MIT、DSPyフレームワークの創造者)らが含まれる。

核心となるアイデアの「常識外れ」な点は:十分に強力なコーディング・エージェントに、自分自身のハーネスをモデルに適合するよう何度も最適化させる。その過程で何も圧縮せず、すべて保存させ、自分で閲覧・分析・要約させ、より良いハーネス・フレームワークを書かせる。

図

具体的には、各反復で生成される全てのコンテンツ——候補ハーネスの完全なソースコード、サンプルごとの実行軌跡、スコアリング結果——が全てファイル形式で構造化されたディレクトリに保存される。データベースもなく、ベクトル検索もなく、最も素朴なファイルとフォルダだけだ。

そして、コーディング・エージェントがこのシステムに投入され、タスクはただ一つ:「過去の全ての試行の経験に基づいて、より良いハーネスを書くこと」だ。

外側のループは極めてシンプルだ:候補を生成 → 評価 → 完全な結果を保存 → エージェントが全履歴を分析 → 新しい候補を生成 → 繰り返す。華々しい探索アルゴリズムもなく、進化戦略もなく、勾配近似もない。探索の全ての「知性」は、エージェント自身のコード理解と推論能力から来ている。

なぜ既存の方法では不十分か

このスキームは素朴に見えるが、それ以前の全ての自動最適化手法が解決できなかった問題を解決している:情報保持。

過去に登場したテキスト最適化ツール——GoogleのOPRO、TextGrad、DeepMindのAlphaEvolve——には共通の致命的欠陥がある。履歴フィードバックへの圧縮が過激すぎるのだ。ある手法は全く記憶を持たず、毎回ゼロから始める。あるものはスカラー評価値(例えば「正解率62%」)だけを保持する。あるものは実行プロセスを短い要約に圧縮する。

これは複雑なシステムのデバッグをエンジニアに任せるのに、「前のバージョンのコードは62点でした」とだけ伝えて——ログもなく、スタックトレースもなく、エラーサンプルもない——状況に似ている。何を修正すべきかわかるだろうか?

Meta-Harnessのアプローチは真逆だ。各評価ラウンドは1000万トークンの診断情報を生成する——各サンプルの入力、モデル出力、正解、中間推論ステップなどの完全な実行軌跡を含む。

エージェントは要約の断片を与えられるのではなく、本当に「研究」をしている——どのファイルを読むかを自律的に決定する。論文の統計によると、エージェントは各ラウンドで中央値82個のファイルを読む。以前に最も良い成績と最も悪い成績を出したハーネスのソースコードを見たり、特定のサンプルの実行軌跡を抜き出して調べ、「このタイプのサンプルではモデルは常にAをBと判定する」といったパターンを発見し、2つのハーネスの差異を比較して、どの設計判断が性能変化を引き起こしたかを推論する。

このプロセスは、優秀なエンジニアが実験分析を行うワークフローとほとんど同じだ——ただしファイル読み込み速度が数百倍速く、決して疲れないという違いがある。

なぜ今になって可能になったか

論文著者は特にタイミングの問題を指摘している。Meta-Harnessが2026年初頭に初めて実現可能になったのは理由がある。単純明快だ——これはコーディング・エージェントの過去1年間の質的飛躍的能力向上に完全に依存している。2年前のエージェントでは、数百のファイルを含むディレクトリ内を自律的に移動し、意味のある分析を行い、実行可能なコードを書くことは不可能だった。今は可能だ。

これは方法論の突破だけでなく、タイミングの物語でもある。エージェント能力の向上により、元々「アイデアは正しいが実行できない」だったスキームが突然現実になったのだ。

3つの戦場、3つの圧勝

理論が美しくても、データが語らなければならない。Meta-Harnessは全く異なる特性を持つ3つのタスクで検証された。

図

戦場1:テキスト分類——4回の反復で他人の40回に相当

テキスト分類実験では、Meta-Harnessは「正解率48.6%」を記録し、従来最強の手作り基準だったACEを7.7ポイント上回った(ACEは40.9%)。注目すべきは効率でもある:コンテキスト・トークン使用量は11.4Kで、ACEが50.8Kを必要とした——約4分の1に削減された。効果が高く、コストは低い。

収束速度も驚異的だ:わずか4回の評価反復で、40回の評価を必要とする競合手法と同等の結果を達成する。エージェントは各ラウンドで完全な軌跡から抽出する情報密度が、スコアや要約しか見られない最適化ツールをはるかに上回る。

論文は分布外汎化テストも行った——5つのデータセットで探索された最適ハーネスを、9つの未知のデータセットに直接移行した結果、やはりACEを上回った。これはMeta-Harnessが見つけたものが、特定のデータセット向けのトリックではなく、より優れたフレームワーク設計であることを示している。

戦場2:数学的推論——人間が思いつかなかったルーティング戦略を自動発見

IMOレベルの難易度を持つ検索強化数学推論タスクにおいて、Meta-Harnessは自動的に「4経路ルーティングBM25検索戦略」を発見した——システムが数学問題を組み合わせ、幾何、数論、デフォルトの4カテゴリに分類し、各カテゴリで差別化された検索パラメータを使用することを学習した。この精緻なルーティング設計は、人間エンジニアが事前に指定したものではない。

図

移送能力も注目に値する:GPT-OSS-20Bで探索された最適ハーネスは、ゼロショットで5つの未見推論モデルに移行しても全てで改善が見られた。これは優れたフレームワーク設計が異なるモデルに対しても有効であることを意味する——ハーネス最適化とモデル選択は直交する2つの次元だ。言い換えれば、ハーネス・エンジニアリングへの投資は、モデルを変えても無駄にはならない。

戦場3:プログラミング・エージェント——人間のハーネス・スキームを超越

Claude Haiku 4.5カテゴリにおいて、Meta-Harnessは確かに37.6%カテゴリ1位を獲得し、既知の全ての手作りハーネス(Gooseや公式Claude Codeなど)を上回った。Claude Opus 4.6カテゴリでは、Meta-Harnessは76.4%カテゴリ2位となった。

Meta-Harnessはこのタスクで重要なトリックも自律的に発見した——「環境ブートストラッピング(Environment Bootstrapping)」だ:エージェントがタスクを実行する前に、シェルコマンドを自動実行してサンドボックス環境のスナップショット(OSバージョン、インストール済みパッケージ、ディレクトリ構造など)を収集し、初期プロンプトに注入する。

これにより、エージェントが通常必要とする2~4ラウンドの環境探索が不要になった——ディレクトリに何があるか確認するために推論ステップを無駄にする必要がなくなったのだ。トークン・バジェットが限られたプログラミング・エージェントにとって、これらのラウンドを節約することは有効な推論能力を直接向上させることに等しい。システムにこの最適化を行うよう事前に指示した人間はいない。Meta-Harnessが探索過程で自分で発見したものだ。

アブレーション実験:情報量こそが重要なレバー

論文では3つの情報保持戦略の比較が示されており、結果は一目瞭然だ:

図

- スコアのみ保持 → 中央値正解率34.6%

- スコア+要約 → 34.9%

- 完全な軌跡(Meta-Harness) → 50.0%

完全な軌跡は15ポイントの向上をもたらし、要約はほとんど助けにならなかった——時には有害でさえあった。なぜなら圧縮は瑣末に見えるが極めて重要な診断詳細を落とすからだ。

これは「AIによるAIの最適化」分野全体にとって、繰り返し噛み締める価値のある結論だ:エージェントが十分に強力な時、人間による前処理と圧縮は助けではなく、邪魔になる。生の情報を全てエージェントに渡し、何を見るか、何を無視するかを自分で決めさせる方が、人間が代行するよりもはるかに効果的だ。

同じビター・レッスン、2つの解釈

最後に、業界の議論に戻ろう——Meta-Harnessをその文脈に置くと、事態は非常に面白くなる。

業界はNoam Brownの見解をビター・レッスン(Bitter Lesson)派に分類している。ハーネスは杖だと述べたからだ:AI研究は繰り返し証明してきた。人間の領域知識に依存した慎重な設計は最終的に暴力的な計算によって平らげられ、だからフレームワーク・エンジニアリングに時間を無駄にするなと。

Meta-Harnessもビター・レッスンを使っている。AI研究は繰り返し証明してきた。汎用的な探索は慎重な手作り設計に勝る——だからハーネスを手作りするなと、AIに汎用的な探索で最適解を見つけさせろと。ハーネスの重要性を否定していないし、モデルが継続的に強くなることを否定もしていない。言っているのは:手作りハーネスが最終的に淘汰されるなら、AIに引き継がせればいいということだ。

簡単に言えば、Noam Brownのバージョンは「ハーネスを作るのに苦労するな」であり、Meta-Harnessのバージョンは「ハーネスを手作りするのに苦労するな」だ。

Meta-Harnessは実質的にこの議論の座標軸を再定義した。モデルとハーネスは二者択一の選択ではない。ハーネス最適化自体が自動化されると、2つの経路は自然に収束する——モデルが強くなれば、Meta-Harnessが探索する最適ハーネスも薄くなる。Anthropicが手動で実行した「Build to Delete」は、このフレームワーク下で自動的に発生する。

この事自体がビター・レッスンが語る「より大きな計算」——いつか勝つ力——の一種だ。

論文チームは最後により遠い方向を提案した:ハーネスとモデル重みの協調進化。今日、モデル訓練とフレームワーク設計は2つの独立したプロセスだ。しかしハーネスが自動最適化できるなら、将来のモデル訓練はハーネスを最適化ループにどう組み込むか?

偶然にも、元Alibaba Qwen技術責任者の林俊旸(リン・ジュンヤン)も最近、類似のことを語っている。離職後に発表した長文 "From Reasoning Thinking to Agentic Thinking" で、彼はハーネスの役割をより細分化された位置に押し上げた——推論時の実行フレームワークであるだけでなく、訓練時の核心基盤施設であるべきだと。どのようなハーネス環境でエージェントが訓練されるかが、何を学ぶかを決定する。

ここに興味深い違いがある:推論時のハーネスは目標が明確で、スコアで優劣がつき、AIが人間より速い。訓練時のハーネスは、この環境で訓練が終わった後、全体的な能力が強化されたかどうかを定義するもので、これは長期的でスパースで、帰属が難しいプロセスだ——このレイヤーの構築は、おそらくまだ人間が行うべきだ。

方向は定まった。誰が最初に動き出すか?2026年後半の賭けのテーブルには、おそらくまた新たな問題が加わるだろう。

図
関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.