このような「Agent のオカルト」が存在する。タスクの背景を明確にし、プロセスを分解し、よくある落とし穴、API の使用方法、サンプルコード、注意事項をすべて詰め込み、さらに専用の長い Skill 文書まで作成したとする。しかし、次回同じようなタスクが来ても、モデルは同じ場所で間違いを犯す可能性がある。
このアプローチには共通の前提がある。「経験」というコンテンツを保存・呼び出し・再利用し、再びモデルに与えれば、性能が向上するはずだという考えだ。
この現象を深く掘り下げると、興味深く有用だが「直感に反する」問題に行き着く。「網羅的で詳細な文書」が、必ずしも「高品質な制御対象」になるわけではないのだ。
産業界が Skill に対して誤解している核心はここにある。多くの関係者は Skill を知能の再利用における最終到達点だと考えているが、モデルはその文書を人間のように「読んでいる」わけではない。モデルは限られた推論予算の中で、次の一手となる戦略、避けるべき行動、そして最も優先度の高い制約条件を探しているのだ。
人間のエンジニアにとって「完全性」とは安心感と規範を意味する。しかしモデルにとって、完全性は往々にしてシグナルの希薄化、重点の曖昧化、そして背景資料への制御の埋没を意味する。つまり、Skill の真価は「モデルの意思決定を支援する」ことではなく、「人間の理解を助ける」ことに基づいて構築されてしまっているのだ。
最近、EvoMap チーム(Infinite Evolution Lab × 清華大学)はこの問題に関する体系的な研究を行い、強烈なインパクトを与える新概念「Gene(遺伝子)」を提案した。その灵感は生物学に由来する。生物学的な遺伝子がタンパク質をコードする DNA 断片であり、何千年も受け継がれてきた共通の記憶や経験であるように、Agent における Gene とは GEP プロトコルのメカニズムを通じて蓄積された、検証可能で再利用可能な知識資産なのである。
論文タイトル:From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution
著者:Junjie Wang, Yiming Ren, Haoyang Zhang
所属:Infinite Evolution Lab(EvoMap)× 清華大学
Evolver(進化エンジン):https://github.com/EvoMap/evolver
CritPt タスク再現リポジトリ:https://github.com/EvoMap/critpt-openclaw-reproducible-70
本論文は、45 の科学コードシナリオにおける 4,590 回の制御実験と、CritPt ベンチマークでのエンドツーエンド検証により、以下の事実を明らかにした。
同一の基礎的経験をモデルに注入した際、「完全な Skill パック」は無指示のベースラインさえ下回り、その 10 倍以上も短い「Gene オブジェクト」が安定して勝利を収めたのである。
この傾向は単に「プロンプト作成時」だけでなく、「Agent がテスト時にいかに継続的に進化するか」という設計原理にまで波及している。Agent が賢明かどうかを決定づけるのは、「いかに多くの経験を蓄積したか」ではなく、「その経験がモデルに戻された瞬間、どのような形状をしているか」なのだ。
これは何を示唆しているのだろうか。現在、産業界が Agent の最適化を語る際、キーワードは常に「より強力な基盤モデル」「より長いコンテキスト」「より高度な RAG」「より複雑なメモリシステム」だ。しかし Gene は、経験の再利用における鍵が、モデルにより多くのコンテンツを提供することではなく、「経験をコンパクトで、制御指向かつ、持続的に進化可能なオブジェクトとして構築すること」にあると明らかにした。これはこれまで、Agent 界全体が見落としてきた点である。
Gene とは何か?
EvoMap チームの研究によると、モデル用経験オブジェクトは、「文書の完全性」ではなく「制御密度」に基づいて設計されるべきだという。
しかしチームはこの経験則的な観察に留まらず、4,590 回の制御実験で現象を固定化した後、複製・変異・継承が可能なソリューション戦略のセットを定義した。Gene は、その完全なオブジェクト層 3 段フレームワークの一部である。
Gene:keywords(キーワード)、summary(要約)、strategy(戦略)、AVOID(回避事項)の 4 種類のシグナルを含み、テスト時の制御スライスとして直接注入可能。Agent の再利用可能な進化戦略テンプレートであり、「どのような状況で、何を行い、どのような制約を守るか」を定義する。いわば事前知識のコード化である。完全な Gene には、signals、strategy、constraints、validation などのフィールドと、固有の asset_id が含まれる。極めて短いトークン制限の中で極めて高い制御密度を持ち、モデルが参照する「トリガーシグナル(部分文字列マッチ、正規表現、多言語エイリアスをサポート)」、「順序付けられた実行者ステップと実行検証およびセキュリティ境界(変更範囲の制限やアクセス禁止パス)」、そして改ざん不可能な SHA-256 ベースのコンテンツアドレス指定ハッシュを明確にしている。
Capsule:検証済みのタスクレベルの実行パスと監査記録。
Event:不変な進化ログ。
これら 3 点セットは、GEP(Gene Evolution Protocol:遺伝子進化プロトコル)と呼ばれる 6 段階のサイクルによって連結される。
詳細はこちら:https://evomap.ai/wiki/16-gep-protocol
平易な言葉で言えば、一連の操作フローは以下の通りだ。
過去の失敗、成功、修復パスを Gene へと蒸留する(ドキュメントを作成するのではなく、追跡可能な制御シグナルを作成する)。
新しいタスクが到来した際、タスクコンテキストをスキャン(Scan)し、最も関連性の高い Gene をマッチングさせ、システム命令として注入する。
実行完了後、その結果を Event として書き戻し、Gene に対する Validate(検証)/ Mutate(変異)/ Solidify(固定)をトリガーする。これにより、基盤モデルのパラメータを更新することなく、Gene プール自体が継続的に進化していく。
Gene による Skill への「次元の違う攻撃」
すべてのデータは同一の実験パイプラインから得られたものだ。Gemini 3.1 Pro Preview(Pro)および Gemini 3.1 Flash Lite Preview(Flash)という 2 つの固定モデルを使用し、サンドボックス実行とチェックポイントの合格率を指標とした。温度 T=0.05、最大出力 16,384 トークンである。
Skill が Gene に敗れたのは、品質ではなく「形態」だ
論文ではまず最も直接的な比較を行った。同一の基礎的経験を、約 2,500 トークンの Skill パックと、約 230 トークンの Gene オブジェクトにそれぞれ変換して比較した。
完全な Skill パックは、両モデルの平均レベルにおいて無指示ベースラインを 1.1pp 下回った。一方、より短い Gene は 3.0pp 上回った。驚くべきは、Skill の劣りが均一ではない点だ。性能の低いモデル Flash では向上が見られた(41.8→49.0)が、高性能モデル Pro では「著しく足かせとなった」(60.1→50.7)。長い Skill が、Pro の本来の能力を押しつぶしてしまっていたのである。
今日最も一般的である「procedural skill(手順型スキル)」、つまりドキュメント形式の経験パックには通常、overview(概要)、workflow(ワークフロー)、pitfalls(落とし穴)、error handling(エラーハンドリング)、API notes(API 注記)、examples(例)、scripts(スクリプト)などが含まれる。実験により、実際にどの部分が機能しているかが明らかになった。
機能していたのは「Workflow」セクションのみであり、「Overview」はむしろ全文を通じて最大の負の寄与を示した。Skill における有用なシグナルは希薄で、わずかな手順的コンテンツに集中している。その他的大量の「人間が読みやすいようにサービスする」ための資料は、むしろ制御シグナルを希薄化し、汚染していたのだ。
Skill が Gene に敗れたのは、知識量や情報密度の差ではない。「制御対象の選択」を誤っていたのである。人間向けの資料をモデルの実行予算に押し込んでも、それは制御ノイズと化すだけだ。
Gene は単に「少なければ全てを得る」ようなプロンプトではない
ここで最も起こりそうな反論は、「Gene が勝ったのは、短くてコンテキストを圧迫しないからではないか?」というものだろう。
実際には、Gene は失敗に対して 3 種類の進化の意図を持って設計されている。
論文では「予算整合実験」を行い、Skill の有効部分のみを切り出して Gene と同じ 230 トークンに圧縮した。
予算が全く同一であっても、Gene は依然として圧倒的勝利を収めた。短くすることで Skill はベースラインを下回ることはなくなったが、いかに切り詰めても Gene の高みには達しなかったのである。
さらに論文では、Gene 内部のどのレイヤーが機能しているかを確認するための段階的構築実験も実施した。
2 行目に注目されたい。keywords と summary を追加しただけでは、性能は無指示ベースラインに戻ってしまう。実際にパフォーマンスを押し上げたのは「strategy」レイヤーだ。同じ文字数でも、「要約」として構成しても意味がなく、「戦略」として構成して初めて有用になる。
Gene は単に短いプロンプトではなく、全く異なる形態のオブジェクトなのだ。モデルの振る舞いを決定づけるのはトークン数ではなく制御構造であり、strategy レイヤーは省略不可能なのである。
論文の擾乱実験において、最も直感に反する結果の一つがこれだ。「時代遅れのアルゴリズムパラダイム」で書かれた stale_paradigm Gene が 56.6% を記録し、clean Gene の 54.0% を上回った。しかし、アルゴリズムを誤ると 48.8%、ドメインを誤ると 49.4% と急落した。減点条件は隣り合わせにある。
この 2 つの結果を合わせて初めて全体像が見える。Gene が有効となる条件とは「いかに新しいか」ではなく、「タスク関連の制御フレームワークを保持しているか」なのである。古びた手法でもフレームワークが正しければ機能する。逆に新手法でもフレームワークが誤っていれば足かせとなる。この対比は、Gene の堅牢性の境界も示している。構造面では寛容だが、セマンティクス(意味内容)には極めて厳しいのだ。
失敗の最適形態はログではなく、蒸留された警告である
Agent システムに携わる者が皆直面する問題がある。「失敗をどのように保存すべきか?」だ。
長い trajectory(軌跡)か?Reflection summary(内省要約)か?Error log(エラーログ)か?
EvoMap チームが注目した重要な問いはこうだ。「エンジニアリング予算が限られている場合、失敗をどのような形式でモデルに還元すべきか?」
論文では 2 組の対照実験が実施された。
対照 1:失敗を異なる媒体に格納
失敗を Skill や自由テキストに詰め込んだ場合、すべて無指示ベースラインを下回った。
唯一正の寄与を示した媒体は Gene のみだった。しかしそれでも、「Gene + 失敗」は「Gene 単独」に劣った(54.0→52.0)。
失敗をそのまま付加することは、かえって Gene を希薄化させてしまうのだ。
対照 2:失敗と戦略をどの形態で混合するか
最も性能が高かったのは「失敗+戦略」の混合体でも、「戦略のみ」でもなかった。最強だったのはfailure warnings only(失敗警告のみ)だ。失敗を「AVOID xxx」という独立した一文一句へと蒸留したものが、戦略本体を保持するよりも強力だったのである。
つまり、Agent にとって真に有用な失敗経験とは、「ログ」としての形ではなく、以下のような形(論文の UV-vis 分光法シナリオにおける実際の AVOID 例)をしている。
AVOID: min_distance を波長値として scipy.signal.find_peaks に渡すこと。まずはサンプル点の単位に変換すること。
AVOID: peak_widths の出力をそのまま FWHM として報告すること。まずは波長単位に戻すこと。
その背後にある原則は極めて明確だ。「失敗経験の蓄積は、加算的な積み上げではなく、選択的圧縮であるべき」だ。
Gene の実体:最小限の検証可能アーティファクト
ここで、実際の Gene がどのようなものかを見てみよう。これは論文の UV-vis シナリオにおける注入例だ。
Domain keywords: uv-vis, peak detection, FWHM, unit conversion
Summary: Detect peaks and compute wavelength-domain peak properties correctly
Strategy:
1. Detect peaks with prominence-based criteria
2. Convert min_distance into sample-index units before peak detection
3. AVOID: Report FWHM only after converting peak_widths outputs back to wavelength units約 230 トークン、5 つのフィールドで構成される。これに対する対照物として、同一経験の Skill パックがある。
約 2,500 トークン。overview、workflow、pitfalls、API notes、examples、scripts などのサブセクションを含み、全体として README ファイルに近い形態をしている。
両者は論文実験において、同一の systemInstruction 注入スロットと同一のサンドボックス評価スクリプトを使用して比較された。つまり制御条件は完全に同一であり、違いは「注入されるコンテンツがどのような形状をしているか」のみである。
GEP プロトコルはこの生の Gene を、id、schema_version、signals_match、strategy、constraints、validation、asset_id などのフィールドを持つ検証可能オブジェクトへとさらに正規化する。その目的は、これを「フォーマットが綺麗なプロンプト」の域に留めず、マッチング、置換、修正、結合を可能にするためだ。
プロトコル層のルールも変化した
Gene が最も優れている点は、「経験オブジェクト」をうまいプロンプトテクニックの域に留めず、直接プロトコル層にまで踏み込んだことだ。
推論時制御(Inference)段階では、論理は極めて滑らかだ。同じ科学コード問題において、約 2,500 トークンの Skill パックを約 230 トークンの Gene 制御スライスに置き換えるだけで、モデルの計算精度は即座に向上する。
しかしプロトコル層(Protocol)において、EvoMap チームはより本質的な判断を下した。「経験オブジェクトが複数 Agent 間で交換される際、それはドキュメント断片ではなく、オブジェクトでなければならない」という判断だ。
なぜか。プロトコルがなければ、Gene は単なるプロンプト断片に過ぎず、境界は不安定で、フィールド比較もできず、蓄積もできないからだ。プロトコル化されることで、Gene は「プロンプト断片」から「マッチング可能・置換可能・修正可能・結合可能」なオブジェクトへと昇華し、継続的な修正、監査追跡、複数 Agent 間での一貫した利用が可能になる。
GEP とは単なるフォーマットの詳細ではなく、Gene を「テスト時制御オブジェクト」から「永続的戦略最適化インターフェース」へと昇格させるプロトコル層そのものなのだ。
実験結果:CritPt ランキングを席巻した「タダ乗り」の黒馬
データで示すため、EvoMap チームは Evolver を公開の最先端物理ベンチマークである CritPt で直接エンドツーエンド実行した。
CritPt は動的であり、実際の物理研究プロセスを厳密に模擬したデータセットである。ベンチマーク公式サイト:https://critpt.com/
Evolver とは、「基盤モデル+Gene プール+進化エンジン+ツールチェーン」からなる完全なシステムである。
(OpenClaw をホストランタイムとし、Evolver を進化エンジン、Gene/GEP をオブジェクトおよびプロトコル層とする。最近話題の Hermes Agent も、ある意味で Evolver の設計思想を「参考」にしている)
Benchmark70 タスクの完全再現回答はこちら:https://github.com/EvoMap/critpt-openclaw-reproducible-70
結果は以下の通り。
Evolver (Gene) 2026-02-16:基盤モデル A 9.1% → 18.57% へ、+9.47pp 向上
Evolver (Gene) 2026-03-26:基盤モデル B 17.7% → 27.14% へ、+9.44pp 向上
パラメータを 1 つも更新せず、SFT や RL も一切追加せず、純粋に経験オブジェクト層の進化のみで、同一基盤モデルを +9pp レベルも引き上げたのだ。同時に、トークン消費量は 100 ドルから 1 ドル未満にまで激減した。
Gene は産業界に何をもたらしたか
EvoMap チームが構築した Gene は、漠然とした「直感」を、定義可能・監査可能・進化可能・テスト時制御指向の経験表現方法論へと具現化した。
アプリケーション層においては、「同僚向けに書いた Skill ドキュメント」と「実行時にモデルへ注入する制御シグナル」を分離する。これはほぼコストをかけず、即座に効果が出る「魔法」とも言える。Agent の長期記憶や Reflection を研究する者にとって、失敗の最適な定着形態は trajectory log や reflection summary ではなく「AVOID 警告」なのだ。GPU リソースが逼迫する中、どの経験を保持すべきかは、収集が正しいかだけでなく、それがモデルの現在の実行予算に適合しているかどうかも重要である。
さらに複数 Agent 間での経験交換という文脈では、Skill ドキュメントを転送するよりも、構造化された Gene オブジェクトを転送する方がプロトコル層のペイロードとして適している。マッチング・修正・検証が可能なオブジェクトでなければ、複数間での真の蓄積と進化はあり得ないからだ。
結論
Gene は、Agent における経験再利用の本質を映し出す鏡である。
Agent は「説明書を読んでいる」のではなく、「限られた推論予算の中で、次に何をすべきか、何を避けるべきかを探している」のである。
しかしこれは双方向的だ。Agent に与える経験オブジェクトの形状が、逆にそれがどのように進化できるかを定義づける。
AI 界全体が、より長いコンテキスト、より派手な RAG、より複雑なメモリシステムを求めて盲目的に熾烈な競争を繰り広げる中、EvoMap チームは極めてシンプルでありながら核心を突く糸口を示した。
Agent を継続的に強くする近道とは、プロンプトをより完璧に書くことではない。「実行経験」を、よりコンパクトで、より制御可能で、より進化可能な「オブジェクト」として作り上げることなのだ。これは CritPt のような過酷なベンチマークで有効なだけでなく、プロトコル層における複数 Agent 間の経験交換においてさらに有用であり、将来の A2A(Agent-to-Agent)集団知能への道筋を示すものである。
Agent 時代、次段階の競争とは、単により大きなモデルやより長いコンテキストを持つことではなく、いかにしてインテリジェンスのための計算リソース利用効率において、より良い一般解をいち早く見つけられるかにかかっている。
Haoyang Zhang(張昊陽)氏:1995 年生まれの連続起業家。EvoMap 創業者兼 CEO。GEP(Genome Evolution Protocol)プロトコル考案者。OpenClaw コミュニティの現象的開発者であり、開発した Evolver プラグインは ClawHub で 10 分以内に 1 位を獲得、72 時間で 3.6 万ダウンロードを記録。「自己進化」ツールとして最も広く知られており、その後この方向性で EvoMap を設立。
Junjie Wang(王軍杰)氏:EvoMap 主席科学者。専門は Agent 自己進化、プロトコル層、経験オブジェクト設計。早稲田大学博士、清華大学博士研究員。「Agent がテスト時にいかに継続的に強くなるか」を体系的に研究し、Evolver の主要開発者の一人。
© THE END
転載の際は、当公式アカウントへのお問い合わせにより許可を得てください。
投稿または取材のご依頼:liyazhou@jiqizhixin.com