SkillOpt：マイクロソフトが提唱する自己進化型エージェントスキル

複雑なエージェントシステムを構築する際、エンジニアリングチームはしばしば非常に厄介な障壁に直面する。複雑な多段階の実行、ツール呼び出し、ファイル処理といった現実のタスクに直面すると、凍結された状態の最先端のクローズドソース大規模言語モデルは、特定のドメインで必要な「手続き的知識」を欠いていることが多いのだ。これまでの基本的な対処法としては、人間が長大なシステムプロンプトを手作業で作成する、単一のエラー軌跡を使ってモデルに自己修正させる、あるいは軌跡記録を抽出して書き換えるといったものだった。これらの常套手段は、深層学習ネットワークの訓練で見られるような「制御力」が極度に欠如しており、制約のないテキスト書き換えは破滅的忘却を容易に引き起こす。また、厳密なテストセットの分離がなされていないため、システムが進化させたと称する「新スキル」は、単一の失敗事例に完全に過剰適合したものになりがちだった。

マイクロソフトは複数の大学と共同でSkillOptフレームワークを発表した。これは、断片的なプロンプトエンジニアリングの体系を真っ向から否定し、エージェントの「スキルドキュメント」を外部から訓練可能な状態として位置づける。そして、完全なフォワードプロパゲーション、バックプロパゲーション、テキスト学習率、検証セットによるインターセプト、そしてエポックレベルの緩慢な更新機構を導入する。これは、クローズドソースモデルの重みを微調整できず、それでも垂直統合型のビジネスシナリオにおいてエージェントのプロセス実行能力を向上させる必要に迫られているエンジニアリングチームに対し、高度に標準化され、すぐに利用可能なインフラ設計パラダイムを提供するものである。

エージェントの手続き的適応というブラックボックスを解く

この論文が解決しようとする現実的なビジネス課題は、「多段階実行環境における大規模言語モデルのドメイン適応」である。

複雑なデータ処理、コード生成、あるいは長い連鎖のマルチモーダル推論タスクにおいて、対象ドメインに適応するには、システムが正しい呼び出し規約、フォーマット制約、証拠収集の手順、そして障害処理パターンを備えている必要がある。モデルの重みを変更できない場合、外部のスキルドキュメントを最適化することが唯一の適応経路となる。現在主流のエージェント自己進化メカニズム（エラーに基づく再試行、軌跡蒸留「Trace2Skill」、内省進化「GEPA」、スキル進化「EvoSkill」など）には、概して以下のような工学的欠陥が存在する。

単一サンプルへの過剰適合：単一軌跡の内省は、しばしば非常に特殊な場当たり的パッチを生成するに過ぎず、汎用性に欠ける。
不安定な意味的跳躍：「学習率」や「ステップサイズ」の概念による制約がないため、新たに生成されたプロンプトが古い内容の大部分を置き換えてしまい、既に習得したスキルが失われる。
サンプル外（Out-of-sample）検証の欠如：チェックされていない変更がそのままデプロイ状態に入るため、未知のデータに対するシステムのパフォーマンスが劣化する。

SkillOptの設計思想は極めて冷静かつ工学的である。それは、テキストスキルの編集を、完全に制御可能なドメイン適応の訓練プロセスとして捉える。凍結された実行エージェントの外部に、独立した「フロンティア最適化モデル（Frontier Optimizer Model）」を導入し、訓練セットの収集、ミニバッチ内省、ステップサイズ制御、インターセプト機構といった古典的な機械学習の手法を組み合わせている。

コアメソッド

SkillOptフレームワークの動作メカニズムは深層学習の最適化器に強く準拠しており、その中核的革新性は、複雑なモデルの勾配更新ロジックを純粋なテキストのスキルドキュメント保守に見事にマッピングしている点にある。具体的には、システムアーキテクチャは実行モデル（Target Model、環境内でタスクを実行する役割）と最適化モデル（Optimizer Model、軌跡を分析しドキュメント編集命令を生成する役割）に分割される。

2.1 パラメータマッピングと基本設定

SkillOptのコンテキストにおいて、エージェントの適応プロセス全体は以下のように再構築される。

モデルパラメータ（Parameter） は、独立したMarkdown形式のスキルドキュメントに対応する。
勾配方向（Gradient Direction） は、複数の履歴軌跡から導き出された構造化テキスト編集提案（追加/削除/置換）に対応する。
学習率（Learning Rate） は、1回の更新で許容される最大テキスト編集エントリ数（Edit Budget）に対応する。
検証機構（Validation Check） は、絶対的な拒否権を持つ、独立した検証セットでのテスト关卡（Held-out Selection Gate）に対応する。
安定訓練機構（Stable Training） は、バッチ処理、学習率スケジューリング、エポックレベルの緩慢な更新に対応する。

システムは訓練前に、データセットを訓練セット、検証セット（本文ではSelection splitと呼称）、そして最終的なテストセットに厳密に分割する。すべての試行錯誤と軌跡の内省は、訓練セット上でのみ行われる。

2.2 フォワードプロパゲーションとバックプロパゲーション：軌跡収集とミニバッチ内省

フォワードプロパゲーション（Rollout Evidence）: 各最適化ステップにおいて、実行モデルは現在のスキルドキュメントを携え、訓練セットからタスクのバッチを抽出して実行する。システムは、タスクのメタデータ、メッセージフロー、ツール呼び出し記録、コマンドライン出力、最終回答、そして環境フィードバックを詳細に記録する。これらの軌跡データは、最適化の基礎素材となる。システム的な欠陥のパターンを露呈させるため、SkillOptは比較的大規模なRollout Batch（デフォルト値: 40サンプル/ステップ）を採用し、スキルが変更される前に十分な統計的証拠を蓄積する。

バックプロパゲーション（Minibatch Reflection）: 最適化モデルが、これらのスコア付けされた軌跡を引き継ぐ。まず成功した軌跡と失敗した軌跡を厳格に分離し、それらをさらにミニバッチ（デフォルトサイズ: 8）に分割する。ミニバッチ処理を通じて、最適化器は複数の失敗サンプルを横断して「共通のプロセスエラー」を探し出すことを強いられ、単一のエラーに対する特異的なパッチを作成する行為が完全に排除される。失敗グループに対しては、最適化モデルが修正ルールを提案し、成功グループに対しては、保持または定着させるべき動作パターンを提案する。

2.3 テキスト学習率と制約付き更新（Bounded Text Updates）

システムが1回のイテレーションで破壊的な全書き換えを起こすのを防ぐため、SkillOptは「有界テキスト更新」を強制する。編集バジェット（学習率に相当）が導入される。各ミニバッチから得られた局所的な修正提案を収集した後、最適化モデルはグローバルな集約と重複排除を行い、期待される有用性に基づいて編集候補プールをソートし、最終的に上位の編集アクション（挿入、置換、削除など）に強制的に絞り込む。

デフォルトのシステムスケジューラはコサインアニーリング戦略を採用し、初期段階ではより大きな再構築（例：4件の修正提案）を許可するが、訓練エポックが進むにつれて、徐々に減衰し、非常に小さなステップでの局所的な微調整（下限は2件）へと移行する。

2.4 極めて厳格な検証セット門番機構（Validation Gate）

これは、SkillOptが過学習を回避するための中核モジュールである。選び抜かれたすべてのテキスト編集アクションがマージされ、候補スキルドキュメント（Candidate Skill）が生成される。実行モデルは、この候補スキルを携えて、独立した検証セット上でベンチマークテストを再実行しなければならない。

阻止ルールは極めて厳格である：候補スキルの検証セットでのスコアは、現在のスキルのスコアを厳密に上回らなければ（Strictly Greater Than）、システムに受け入れられず、新たな現在のスキルとして設定されない。引き分けやスコアの低下はすべて即座に破棄される。この妥協のない関門機構により、テキストレベルでの「もっともらしいが的外れな診断」が実際の実行に実質的な害を及ぼすことが確実に防止される。

2.5 却下編集バッファ（Rejected-Edit Buffer）

厳格な検証メカニズムの下では、多数の候補修正が却下される。SkillOptはエポック局所的なキャッシュプールを構築し、試みられたがスコア低下を引き起こしたテキスト編集アクションと、それらが解決しようとした失敗モードを記録する。同じエポック内での後続の分析において、最適化モデルはこの履歴記録を読み取り、既に効果がないと証明された修正経路を回避する。これは、訓練ループにノーコストの負のフィードバック記憶を注入することに相当する。

2.6 エポックレベルの緩慢な更新とメタスキル

迅速なステップ更新は現在のバッチの課題に対処するために用いられ、エポックを跨いだ分析は長期的なパターンを捉えるために使用される。各エポックの終了時、SkillOptは同一の訓練サンプル上で「前のエポックのスキル」と「現在のエポックのスキル」のパフォーマンスを比較し、それをパフォーマンス向上、パフォーマンス低下、頑固な失敗、安定的な成功に分類する。

この縦断的な比較レポートに基づき、最適化器は二つの成果物を生成する。第一に、緩慢な更新ガイダンス（Slow Update）：この内容は、スキルドキュメント内の特別なMarkdownタグで区切られた「保護領域（Protected Region）」に書き込まれる。通常のステップレベルの迅速な微調整はこの領域を変更する権限を持たず、中核的なドメイン戦略がエポックを超えて存続することが保証される。第二に、メタスキル（Meta Skill）：これは純粋に最適化器自身のためのガイドブックであり、「この特定の環境では、どのような種類のテキスト修正スタイルが検証セットに受け入れられやすく、どのような修正が失敗しやすいか」を記録する。これは最終的なデプロイには一切関与せず、訓練段階のコンテキスト内にのみ存在する。

実装の詳細

SkillOptは基盤となるモジュール分割において非常に高い工学的純度を示しており、構造化されたJSON契約を通じて、内省、マージ、スコアリングをコードによって編成可能な独立したエージェントチェーンへと分解している。

1. 異常分析フロー（analyst_error.md） 最適化モデルは複数の失敗軌跡を受け取り、厳格なルールに従わなければならない：サンプル横断的な共通のエラーパターンを特定することが要求され、出力されるJSONには batch_size と構造化された failure_summary リストが含まれる。また、既存のドキュメント内容を重複させることなく、欠陥に対するパッチ（Patch）のみを出力するよう強制される。このパッチ配列には、具体的な操作タイプ（append, insert_after, replace, delete）、ターゲット位置を示すテキスト、そして新しい内容が含まれる。

2. 成功要因分析フロー（analyst_success.md） これに対応して、最適化器は成功サンプルを観察し、汎化可能な行動パターンを抽出する。ここでは、「現在のスキルドキュメントがまだカバーしていない」操作ルールのみを提案するように制限されており、システムが同じ命令を繰り返し追加することでドキュメントが無意味に膨張するのを防ぐ。

3. マージと裁定（merge_final.md） システムは独立したパッチ候補プールを複数生成する。最終的な統合ノードでは、マージルールが明確に規定されている。すなわち、失敗修正パッチが絶対的な優先権を持つ。失敗修正パッチと成功モードパッチが直接衝突した場合、システムは失敗を修正するロジックをデフォルトで保持するよう求められる。また、このノードも  タグが付いたエポック横断的な読み取り専用領域に触れることは禁止されている。

4. ソートと絞り込み（ranking.md） これはテキスト学習率を実装する具体的なモジュールである。最適化器はすべての有効なパッチを受け取り、以下の四つの次元に基づいて優先順位スコアを付ける。すなわち、システム的な影響度（全失敗の50%を解決するルールは、単一の境界ケースを解決するものより優先される）、補完性（既存のスキルの空白を埋める）、汎用性（特定のエンティティに紐づくものより抽象的な原則が優先される）、実行可能性（具体的なガイダンスは曖昧な提案より優先される）である。システムは最終的に、必要な編集数のインデックスを切り捨てて出力することで、学習率制御を実現する。

実験結果

この極めて自制の効いたフレームワーク設計の下で、SkillOptの実験結果は驚異的な支配力を示した。テストセットは、SearchQA（検索質問応答）、SpreadsheetBench（複雑な表計算操作）、OfficeQA（ドキュメント推論）、DocVQA（視覚的質問応答）、LiveMathematicianBench（数学推論選択問題）、ALFWorld（多段階実世界環境意思決定）の六つの主要ベンチマークを網羅している。

テストモデルは、最高性能のGPT-5.5シリーズ、GPT-5.4シリーズの様々なバリエーション（mini、nano）、そしてQwen3.5-4BやQwen3.6-35B-A3Bといったオープンソースの小規模モデル群にまで及ぶ。実行環境は、直接対話（Direct Chat）、サンドボックス付きCodex Harness、Claude Code Harnessを完全にカバーしている。最終報告されるすべての指標は、完全に隔離された独立したテストセット（Test Split）からのみ得られたものである。

4.1 絶対的な効果と極限の編集経済性

合計52のモデル、テストセット、環境のグリッド（Cell）にわたる横断比較において、SkillOptは全52セルで最良または同率最良を達成した。スキルなし（No skill）のベースラインを圧倒しただけでなく、人間が手書きしたエキスパートスキル、単一ステップでのLLM生成スキル、さらにはTrace2Skill、TextGrad、GEPA、EvoSkillといった一連の動的進化フレームワークに対しても完全に勝利した。

GPT-5.5の直接対話モードにおいて、スキルを全く装備していないベースラインと比較して、SkillOptは六つのテストセットの平均正解率を58.8%から82.3%へと引き上げた（絶対値で+23.5ポイントの向上）。最も顕著なデータは、プロセスに極めて厳しい要求がある分野で見られた。SpreadsheetBenchは41.8%から80.7%へ急上昇し、OfficeQAは33.1%から72.1%へと急騰した。この恩恵は小規模パラメータのモデルにも波及し、GPT-5.4-nanoはALFWorldにおいて、パフォーマンスを34.3%から69.4%へとほぼ倍増させた。

非常に衝撃的なのは、その背後にある編集経済性（Edit Economy）である。大幅なスコアの飛躍の背後で、最終的にデプロイ可能な成果物である best_skill.md は驚くほど短く、トークン数は379から1995の範囲（中央値は約920トークン）に収まっていた。さらに重要なのは、複数エポックにわたる激しい探索の後、検証セットによって実際に通過を許可され、最終ドキュメントに永続的に書き込まれた修正回数（Edits）は、すべてのベンチマークにおいてわずか1～4回（中央値2.5回）であったことだ。例えば、LiveMathematicianBenchでは+29.3ポイントという絶対的な向上が、たった1回のコア編集がシステムに受け入れられたことから生じている。これは、このフレームワークの最も硬派な証明を構成する。検証セットの門番機構が、まるで篩のように99%の過学習ノイズを排除し、生き残った1～4のステートメントだけが、純粋なドメインの「筋肉の記憶」を抽出しているのである。

4.2 訓練コストの定量化

強力な最適化器を導入して複数ラウンドの対話を行うことは、必然的にトークン消費を伴う。論文は、テストセットでの絶対的なパフォーマンスを1ポイント向上させるための詳細なコストマトリックスを提供している。軌跡が比較的短い実行系ベンチマーク（表計算タスクや数学問題など）では、1パーセントポイントの向上につき、0.6M～3.6Mの訓練トークンが必要となる（例えば、OfficeQAで+39ポイントの向上を達成するのに、合計20.8Mトークンを消費した）。マルチモーダルな長文読解を伴うベンチマーク（DocVQAなど）では、1ポイントあたりのコストは46.4Mトークンにまで跳ね上がる。中核的な利点は、この計算コストが完全に一度きりのオフライン支払いであるという点だ。スキル抽出が完了すると、最終的に生成された軽量なMarkdownドキュメントがオンラインにデプロイされる。推論時には、最適化器の追加呼び出しや重みのロードといったオーバーヘッドは一切発生しない。

4.3 三次元転移テスト：モデル横断、環境横断、データセット横断

幾重もの切り捨てとブロックを経て抽出された、この薄い数ページのドキュメントは、高度な汎化能力を示した。

モデル横断転移（Cross-model transfer）: GPT-5.4をターゲットモデル兼最適化器として訓練した表計算スキルを、そのまま一切変更せずに、超小規模パラメータのGPT-5.4-miniにデプロイしてゼロショット推論を行ったところ、元のスキルの向上効果の約82%が保持された（元ターゲットの+11.4に対し+9.4）。一部の数学タスクでは、高級モデルで抽出したドキュメントを弱者モデル（GPT-5.4-nano）にそのまま与えることで、弱者モデルが自分自身で内製して抽出した上限（27.2%）を超えるスコア（28.8%）を達成した。

環境横断転移（Cross-harness transfer）: これは最も工学的な実用価値を持つテストである。OpenAI Codexのサンドボックス環境下で訓練したSpreadsheetBenchスキルを、そのままAnthropicのClaude Code実行ループに移行したところ、後者に対して+59.7ポイントもの絶対的な向上をもたらし、Claude Code自身がネイティブ環境でSkillOptによる全量最適化を行った場合の成績（80.4%）をわずかに上回った。二つの実行基盤の低レベルツールAPIは完全に異なっている。この指標は、最適化器が抽出したものが、決して単なるコマンドライン命令の丸暗記ではなく、「ワークブック構造の確認、数式検証の優先、静的な値の固定化」といった高次元の方法論であることを十分に証明している。

ベンチマーク横断転移（Cross-benchmark transfer）: OlympiadBenchの問題集で訓練されたスキルを、フォーマットが全く異なるOmni-MATH問題集に直接持ち込み、クローズドブック試験を実施したところ、異なるスペックのモデル全てにおいて、全面的に正の効果（+1.3～+3.7ポイントの向上）が計測された。これは、極度に単純化されたテキスト更新がノイズを遮断する上での工学的価値を改めて裏付けている。

4.4 最適化器の強度を剥奪した除去分析

研究チームはまた、非常に厳密な比較対照実験を設計した。すなわち、訓練期間中に、地上最強のGPT-5.5最適化器を取り除き、訓練対象（例：GPT-5.4-mini）と完全に同型の弱小モデルを「自己指導」のために置き換えた場合、結果はどうなるのか、というものだ。中核的なメカニズム（学習率の制限、検証によるブロック、緩慢な更新）をすべて固定したままの条件下で、弱小モデルの最適化器であっても、強力モデルの最適化器による向上効果の56%から74%を回復することができた。この一連のデータは、「成績向上は単に教師モデルが強力だったからだ」という疑念を打ち砕き、この制約付きの最適化フローのメカニズムそのものこそが、エージェント能力を引き出す真のレバレッジであることを論証している。バッファプールを無視し、学習率を無視し、検証セットを放棄した無秩序な修正こそが、これまでのエージェントシステムが本番環境で脆弱であった真の原因なのである。

結論：自制と境界線

SkillOptは、極めて自制心があり緻密な方法論を示した。これは、現在の浮ついたエージェント能力拡大ブームに対する、非常に優れた軌道修正である。もしあなたのチームが、特定のビジネス環境（例えば、特定形式の決算報告抽出、特定データソースの定量データクレンジング、複雑な投資リサーチのための多段階処理など）で長期的に稼働するエージェントシステムを構築しているならば、この方法論は、完全にすぐに使えるモジュール化された理想的な手本を提供してくれる。