先週のライブ配信中、Anthropic の skills リポジトリが更新されているのを発見しました。
中を覗いてみると、なんと極めて需要の高い Skill が更新されているではありませんか。
これこそが、Skills エコシステム全体の基盤とも言えるものです。
その名も「Skill-creator」です。
正直なところ、現在の Claude(小龙虾)の能力がこれほどまでに強力である理由の半分は Skills によるものであり、それらの Skills が生み出された背景にはほぼ間違いなく、この母なる Skill である「Skill-creator」の存在があります。
過去に Skills に関する記事をご覧いただいた方や、実際に Skills を使ったことのある方なら、この「Skill-creator」を知らないはずがありません。
簡単にまとめると、これは Anthropic 公式が提供する Skills ジェネレーターです。
自分のニーズを口頭で説明するだけで、Skill-creator が即座に Skill として形にしてくれます。
まだご存じない方は、過去に公開した以下の記事をご覧ください。「爆発的な人気を博した Skills とは何かを完全に解説」かなり詳細に書いたつもりです。
そして今週、ようやく時間を割いて今回の更新された Skill-creator のドキュメントを詳しく読み込みましたが、これはまさに「エピックな更新」と呼ぶにふさわしく、あまりにも強力になりすぎています。
というわけで、今回の Skill-creator の更新で追加された新機能や新特徴について詳しく解説する記事を書く価値は大いにあると感じました。
正直、既存のすべての Skills を一から最適し直す価値があります。
ごく簡単に言うと、今回はなんと 4 つの全く新しい機能が追加されました。
- 評価システム:実行後にその Skill が実際に使えるかどうかを即座に判定
- ベンチマークテスト:通過率、所要時間、トークン使用量をすべて数値化
- マルチエージェント並列テスト:各テストをクリーンな環境で独立実行。A/B ブラインド評価に対応し、結果が相互に汚染されることを防止
- 記述の最適化:Skill の説明文を自動修正。トリガーすべきものは確実に発動し、不要なものは誤発動しないように調整
これまでの Skill-creator には、ある重大な課題がありました。生成された Skills がいわゆる「ブラックボックス」であり、それが実際に使えるのか、品質はどうか、トリガーメカニズムは適切かどうかが全く分からなかったのです。
現代的な産業システムに例えるなら、「評価メカニズム」という極めて重要な要素が欠けていました。
評価とはそれほどまでに重要で、優れた評価基準こそが進むべき方向性を示すのです。
そして今、新版の Skill-creator は、その評価システム全体を完全に補完しました。
ぜひ最新版へのアップデートを強くお勧めします。
アップデート方法も驚くほど簡単です。以下の文言を、お使いの Agent(Claude Code、OpenClaw、OpenCode など)に送信するだけです。
https://github.com/anthropics/skills/tree/main/skills/skill-creator、この skills が更新されました。最新バージョンにアップデートしてください
はい、たったこれだけです。
すると、Agent が自らアップデートを実行してくれます。
あっという間に完了します。
それでは、新版 Skill-creator の機能を具体例でデモしてみましょう。
以前の記事で、GitHub の yt-dlp を Skill 化し、YouTube や Bilibili などの動画サイトから動画をダウンロードできるようにしました。
しかしその後、動画をダウンロードできるだけでは不十分だと気づきました。
動画リンクを渡すだけで、テキスト版の台本を自動生成してほしい。
さらに、英語やその他の言語の動画であれば、中国語とのバイリンガル台本ドキュメントを出力してほしいと考えました。
そこで今回、この機会を借りて skill-creator を使い、新たな Skill を一から作成してみることにしました。
プロンプトはいたってシンプルです。
「動画リンクを渡すと、その文字起こし台本を返す Skill を作りたい。元の言語が中国語以外の場合は、元言語版と中国語版の両方の台本ドキュメントを出力してほしい」
すると、いくつか質問が来てニーズの詳細を確認した後、Skill 全体の設計を開始してくれます。
およそ 3〜5 分で Skill の設計が完了しました。
実際に OpenClaw 創業者への YouTube インタビュー動画で試してみましょう。
YouTube のリンクを一つ渡しただけです。
5 分後には、中国語版の台本が完成していました。
しかし、実はある問題がありました。
巨大なテキストの塊が、文字も小さく窮屈に詰め込まれています。
これでは到底読めたものではありません。
そんなときは、継続して対話することで、Skill の最適化や改善を依頼できます。
新版の Skill-creator は、この改善能力も向上しています。
改善後の結果がこちらです。
ほぼ完璧です。
レイアウトも明確で段落も区切られ、まさにドキュメントとしてあるべき姿になりました。
しかし、これで終わりではありません。
ここで一つ悩ましい問題が発生します。自分の Skills 同士が競合する可能性があるのではないか、という不安です。
現在、動画リンクに関連する Skill が 2 つ存在します。
1 つ目は yt-dlp で、動画をローカルにダウンロードする役割。
2 つ目は今作成した台本生成で、動画内容をテキスト化する役割です。
両方とも「動画リンクが与えられたら発動」というトリガー条件のため、本来発動すべきものが発動しなかったり、不要な場面で誤発動したりしないか心配になります。
そんなときは、Skill-creator の評価システムを活用し、Skill の記述を最適化してもらいます。
するとまず現在の Skill 記述を読み込み、次に実行すべき 4 つのステップを教えてくれます。
「発動すべきクエリ 10 件」と「発動すべきでないクエリ 10 件」の 2 組を自動生成します。
非常に興味深い仕組みです。
境界事例をあえて含めることで、モデルにあいまいな状況下での判断を迫ります。
そしてなんと、確認用の Web ページまで自動生成してくれます。これには本当に驚きました。
実際に使ってみて心底感動しました。
すべてのクエリがインターフェース上に並び、各項目の右側には「発動すべきか」を切り替えるスイッチがあります。
各項目を順番に確認し、判断が不要だと思うものはスイッチをオフにするだけです。
例えば 3 番目のケースのように、発動してほしくなければ、そのままオフにします。
次に「発動すべきでない 10 件」も確認しましたが、問題ありませんでした。
すべての確認が完了したら、「評価用データセットをエクスポート」をクリックするだけで完了です。
サンプルの確認後、最適化ループがバックグラウンドで開始され、最大 5 ラウンドの反復処理が実行されます。
各ラウンドではテストと評価のために 3 つの処理が実行され、全体で約 10〜20 分を要します。
進捗状況も定期的にレポートしてくれます。
処理が完了すると、巨大な表が表示されます。
列が各クエリサンプル、行が各イテレーション版の説明記述に対応しています。
緑のチェックマークはトリガー成功、赤い×はトリガー失敗を意味します。
青い列がテストセット、それ以外がトレーニングセットです。
サンプルを 60% のトレーニングセットと 40% のテストセットに分割。トレーニングセットで反復最適化を行い、最終的にテストセットでのパフォーマンスで選択することで過学習を防止します。
完了後、最適な記述が自動的に SKILL.md に書き戻され、手作業は不要です。
Anthropic 公式が自社のドキュメント系 Skill 6 つでテストしたところ、5 つでトリガー率が向上しました。
新版 skill-creator で最適化しただけで、この成果は本当に驚異的です。
このステップにより、Skills のトリガー精度を大幅に向上できます。
しかし、トリガーが正しくても OK ではありません。
Skill をインストールして安定してトリガーするようになった後、実際のタスクでどれだけパフォーマンスを発揮するかも評価する必要があります。
そこで、先ほど作成した Skill を使って、プロセス全体を実演してみましょう。
先ほどの Skill に対して評価を実行します。
まず Skill ファイル全体を読み込み、その Skill の中核プロセスを把握します。
次に、「どの側面をテストしたいか?」と聞いてきます。
ここでは「包括的評価」を選択しました。
Skill の機能に基づき、3 種類のテストシナリオを自動設計し、定量的な受入基準も同時に設定します。
方案を確認すると、4 つの独立したサブエージェントを同時に起動して並列実行します。
今回のように 4 つのエージェントを並列でテストに使えるのは非常に魅力的です。
従来もある程度の評価は可能でしたが、最大の問題は順次実行されることでした。1 つ終わってから次へ進む方式です。
ご承知の通り、コンテキスト管理は極めて重要です。前のタスクで蓄積されたコンテキストが、次の結果を汚染してしまうのです。
Skill の功績かと思いきや、実は会話履歴が手助けしていただけということも珍しくありません。
今回の評価は、まさに本質を捉えています。
各エージェントが完全にクリーンな環境で独立して動作し、トークン数や時間指標も個別に計測されます。
相互の干渉はゼロです。
結果はより迅速に、データはよりクリーンになります。
待っている間に、定量的なスコアリングスクリプトも準備してくれます。
テスト結果が戻ると、フォーマット要件への適合性を自動チェック。細かい点まで網羅されています。
テスト完了後、ブラウザに評価確認ページが 2 つのタブと共に表示されます。
「出力」タブでは、各テストケースの出力結果を直接確認できます。
下部にはフィードバック欄があり、不適切な点や改善が必要な箇所に直接注釈を付けられます。
これらのフィードバックは保存され、次回の Skill 改善時にそのまま活用されます。
もう一つは「ベンチマークテスト」タブで、Skill あり vs なしの比較が可能です。
定量的な比較により、結果は一目瞭然です。
データ面でも極めて定量化されています。
Skill ありの通過率は 100%、なしのベースラインは 9%。その差は 91.5% です。
コスト面では、Skill ありで約 4000 トークン、なしで 1750 トークン。差は 2250 トークンです。
これは Skill による追加コストですが、得られる結果を考えれば十分価値があります。
しかし、評価の価値はこれだけにとどまりません。
Anthropic 公式も事例を挙げています。
同社には PDF 処理用 Skill があり、以前は表処理でエラーが出ていました。
Claude は文字を特定の座標に正確に配置する必要がありましたが、明確なフィールドガイダンスがないため、頻繁に位置がずれていました。
この問題は評価プロセスで発見され、位置特定ロジックを修正・改善することで解決しました。
つまり、問題が発見できれば一からやり直す必要はないのです。
評価結果はローカルに保存され、次回 skill-creator でその Skill を改善する際、前回ラベル付けした問題点を引き継いで修正します。
修正後にもう一度評価を実行し、改善されたか確認します。
テスト→発見→修正→再テストという完全なサイクルが確立されました。
Anthropic は、テスト、ベンチマーク、反復的改善など、ソフトウェア開発の厳密な手法を Skills の作成プロセスに導入しました。
本当に、驚異的な進化です。
これは誰にとっても、まさにエピックな強化だと言えるでしょう。
ご存じの通り、Claude(小龙虾)がなぜこれほどまでに強力で多様なタスクをこなせるのか。それは彼自体が特別優れているからではなく、単に多数の Skills を装着しているからです。一つ一つが機能パッケージなのです。
つまり Skills とは、Agent エコシステムが今後大繁栄を迎えるための基盤なのです。私自身も、あらゆる種類の Skills を強く支持し、精力的に普及を推進してきました。
したがって、Skill-creator を最新版にアップデートし、ご自身で作成したすべての Skills について最適化と評価を実行することを強くお勧めします。
ただし、まずご自身が作成した Skills がどの種類に属するかを明確にする必要があります。
本質的に、Skills は 2 種類に大別されます。
1 つ目は「能力拡張型」です。
Claude が本来不得手なタスクを実行できるよう教えるタイプです。
例えば公式のフロントエンドデザイン用 Skill やドキュメント作成用 Skill には、プロンプトだけでは到底達成できない多数のテクニックが記述されています。
私たちが普段自作する Skills のほとんどは、このタイプに該当します。
2 つ目は公式が「コーディング選好型」と呼ぶタイプです。
Claude に自分流のルールを遵守させるものです。
Claude 自体は各ステップを実行可能ですが、Skill によってそれらのステップをチーム固有のプロセスに沿って連結します。
例えば議事録整理用 Skill で、自社の定型フォーマットに従い、音声録音からアクションアイテム付きドキュメントを自動生成するといったケースです。
あるいは週報生成用 Skill で、各プラットフォームからデータを抽出し、指定フォーマットで整形するといったものです。
これはつまり、ワークフローそのものだと理解していただけます。
この 2 種類では、評価の方向性がやや異なります。
能力拡張型では、モデル更新後もその Skill に存在意義があるかどうかをテストします。
A/B テストで、Skill ありとなしの両方を 1 回ずつ実行して比較します。
結果が同等であれば、その Skill は引退させても問題ないでしょう。
一方、コーディング選好型では、別の点をテストします。指定されたプロセスを忠実に実行しているか?ステップの抜けはないか?勝手に順序を変更していないか?特に指示した要件を忘れていないか?などです。
したがって、若干の違いがありますので、各自評価される際はご留意ください。
振り返ってみれば、以前は Skill を作成した後は、単に「できた気」になっているだけでした。
正直なところ、すべてがブラックボックスで、どう評価すべきか全く分かりませんでした。
しかし今や、状況は一変しました。
評価を実行すれば、データが可視化され、有用かどうかは一目で判断できます。
すべての Skills は、本当に最適化と評価をし直す価値があります。
Skills エコシステム。
再び大繁栄の波が来ると予感します。
以上、ここまでお読みいただきありがとうございます。よろしければ、高評価・視聴・共有の 3 つをよろしくお願いいたします。最新情報をいち早く受け取りたい方は、スター⭐ も付けてください。ご視聴ありがとうございました。また次回お会いしましょう。
>/ 執筆者:カズケ、カダチ
>/ ご投稿・情報提供は、メールまで:wzglyay@virxact.com