上週直播的時候,發現 Anthropic 的 skills 倉庫居然有更新了。
點進去一看,然後居然發現了一個超級剛需的 Skills 迎來了更新。
就是這個,甚至可以說是整個 Skills 生態的基石。
Skill-creator。
可以說,現在小龍蝦的能力能這麼強,有一半的原因都要歸功於 Skills,而這些 Skills 能被創造出來,幾乎都要歸功於這個母 Skills,Skill-creator。
我相信,任何一個看過我們過去關於 Skills 的文章,或者玩過 Skills 的朋友,都絕對不可能對這個 Skill-creator 陌生。
簡單總結就是,這是 Anthropic 官方出的 Skills 生成器。
你可以用嘴描述出你的需求,然後直接用 Skill-creator,幫你做成一個 Skill。
如果有不了解的,可以去看一下我們過去的這一篇文章:一文帶你看懂,火爆全網的 Skills 到底是個啥。自認為寫的還是比較詳細的。
這週終於有時間,詳細翻了一下這次更新的 Skill-creator 的文檔,然後發現,這次真的可以說,是史詩級更新也不為過,強了太多太多了。
所以我覺得,值得寫一篇文章,來給大家聊聊,這次 Skill-creator 更新的新特性和新功能。
真的,所有的 skills,都值得重新優化一遍。
非常簡單的說,這次他們一口加了 4 個全新的能力,分別是:
1. 評估系統,跑完直接告訴你這個 skill 到底行不行。
2. 基準測試,把通過率、耗時、token 用量,全都量化。
3. 多代理並行測試,每個測試在乾淨的環境里獨立跑,支持 A/B 盲評,結果不互相污染。
4. 描述調優,可以自動幫你改 skill 描述,該觸發的觸發,不該觸發的就別亂觸發。
之前的 Skill-creator 其實一直有個痛點,就是你生成完的 Skills,其實是個黑盒,你完全不知道,這個 Skills 到底好不好用,它的質量怎麼樣,它的觸發機制合不合理。
用我們現代經常提的工業化體系來說,就是缺少了一個很重要的東西,評估機制。
評估太重要了,一個好的評估,是真的可以引領方向的。
而現在,新版的 Skill-creator,直接把整個評估體系,全都補上了。
我極力推薦大家,一定要更新到最新版。
更新方式也究極無敵簡單,你直接把這段話,發給你的 Agent 就行,無論是 Claude code、OpenClaw、OpenCode 等等等等:
https://github.com/anthropics/skills/tree/main/skills/skill-creator,這個 skills 更新了,幫我更新到最新版本
對,就這麼一句話。
然後你的 Agent,就會自己去更新了。
很快,就更新完了。
我用一個案例,來給大家演示一下新版 Skill-creator 的能力。
在之前有一篇文章中,我把 Github 上的 yt-dlp 做成了一個 Skill,能從 YouTube、B 站等各種視頻網站下載視頻。
但其實我們後來發現,光能下載視頻還不夠。
我還希望拿到視頻鏈接之後,能直接生成文字版的講稿。
而且如果是英文或其他語言的視頻,最好能直接給我中英雙語的講稿文檔。
所以正好,藉著這個機會,我就用 skill-creator 又搓了一個新 skill。
提示詞很簡單。
我想創建一個 skill,我希望能夠實現我給了一個視頻鏈接,它能夠把文字版的講稿發給我,如果是別的語言,最好是把原語言版和中文版的講稿文檔給我。
它會先問你幾個問題,確認需求細節,然後開始幫你設計整個 skill。
大概 3 到 5 分鐘,這個 Skill 就設計完了。
我拿一個 OpenClaw 創始人的 YouTube 訪談視頻來試一下。
就給了一個 YouTube 的鏈接。
五分鐘後,中文版的講稿就出來了。
但是,其實有個問題。。。
這一大坨文字堆在一起,字又小又擠。
根本沒法看。
這時候你就可以繼續對話,讓它給你優化,幫你改進這個 skill。
新版的 Skill-creator,在改進的能力上,也有一些提升。
改進之後的效果:
幾乎完美。
排版清晰,段落分明,這才像個文檔該有的樣子。
但這還沒完。
但這個時候,一個頭疼的問題就來了,我害怕我的 skills 觸發會打架。
因為我現在有兩個 skill 都跟視頻鏈接相關。
一個是 yt-dlp,負責下載視頻到本地。
一個是剛做的講稿生成,負責把視頻轉成文字。
兩個 skill 的觸發條件都是給一個視頻鏈接,我害怕他們會打架,就是出現該觸發的不觸發,不該觸發的亂觸發。
那就可以使用 Skill-creator 的評估體系了,讓它來幫你,進行優化 skill 描述。
它受會先讀取你當前 skill 的描述,然後告訴你接下來要做四件事:
自動生成兩組查詢,應觸發的 10 條和不應觸發的 10 條。
設計得很有意思。
故意把邊界情況都擺進去,逼模型在模糊地帶做判斷。
然後,直接生成了一个網頁,讓你確認,特別牛逼。
真的,我用到的時候都驚呆了。
所有查詢排在界面里,每一條右邊有個開關,標著是否應該觸發。
你可以逐條看一遍,覺得哪條判斷不對,直接關就行。
打個比方,第三條這種情況,我不想讓它再觸發了,我就直接讓它關掉就行。
然後還有不應該觸發的 10 條,我看了一遍,沒啥問題。
所有的都確認之後,這時候,你點導出評估集,就完事啦。
確認完樣本之後,優化循環會在後台啟動,最多跑 5 輪迭代。
每一輪做三件事來幫你進行測試和評估,整個過程大約需要 10-20 分鐘。
它害會定期匯報進度。
跑完之後就是你就能看到一個巨型表格。
每一列是一個查詢樣本,每一行是一個迭代版本的描述。
綠色勾對勾表示觸發成功,紅色叉×表示沒觸發。
藍色列是測試集,其餘是訓練集。
它把樣本分成 60% 訓練集和 40% 測試集,在訓練集上迭代優化,最終用測試集上的表現來選,防止過擬合。
跑完之後,最優的描述會自動寫回你的 SKILL.md,全程不用你動手。
Anthropic 官方在自己 6 個文檔類 skill 上測了一下,5 個觸發率都有提升。
僅僅就用新版的 skill-creator 優化了一下,真的很牛逼。
通過這一步,能大大提升你的 Skills 的觸發準確率。
但觸發對了,並不等於 OK。
所以,你的 Skill 裝上並且能穩定觸發之後,到底在實際任務上表現如何,這個能力,也還要評估一下。
我就繼續拿這個剛做好的 skill 來跑一遍,帶你大家看看整個過程。
直接對剛剛那個 skill 進行一下評估。
它會先把你的 skill 文件完整讀一遍,搞清楚這個 skill 的核心流程是什麼。
然後它會問你:你更想測哪個方面?
我選了全面評估。
它根據 skill 的功能,自動設計了三類測試場景,同時設計了量化驗收標準。
確認方案之後,它一次性啟動了 4 個獨立子代理,同時跑。
這次 4 個並行的 Agent 來進行測試,就很香了。
以前其實你也可以做一些簡單的評估,但是,最大的問題,就是會按順序跑,一個跑完再跑下一個。
但是大家都知道,上下文管理有多重要,前一個任務積累的上下文,會污染後一個的結果。
你以为是 skill 的功勞,但,其實完全是對話歷史幫了忙。
這次的評估,就對味了很多。
每個代理都在完全乾淨環境里獨立運行,有自己的 token 計數和時間指標。
互相之間零交叉。
結果更快,數據更乾淨。
等待的時候,它也順手就把量化評分腳本也準備好了。
等測試結果回來之後,就直接自動檢查格式是否符合要求,很多小細節全都在里面。
測試跑完,瀏覽器會里彈出評估查看頁面,有兩個標籤頁。
輸出標籤頁,可以直接看每個測試用例的輸出。
下面還有一個反饋框,你可以直接標注哪里不對、哪里需要改進。
這些反饋會被存起來,下次改進 skill 的時候直接用。
另一個是基準測試標籤頁,可以看有 skill vs 無 skill。
通過量化對比,一目了然。
數據這塊,也是極度量化。
有 skill 的通過率 100%,無 skill 基線 9%,差值 91.5%。
費用上,有 skill 每次大約 4000 token,無 skill 1750 token,差了 2250。
但這是 skill 帶來的額外消耗,對比產出的結果,值得。
但評估的價值遠不止於此。
Anthropic 官方也舉了個例子。
他們有個 PDF skill,之前在處理表格時會出錯。
Claude 需要把文字精確的放在特定坐標上,但因為沒有明確的字段做引導,經常放歪。
這個問題在評估過程中被發現,再進行修復改進定位邏輯後,問題就解決了。
也就是說,找到問題之後不用從頭來過。
評估結果會存在本地,下次你用 skill-creator 改進這個 skill 的時候,它會把上次標注的問題直接帶進去,針對那里改。
改完再跑一遍評估,看有沒有提升。
測試、發現、修、再測,這個循環是完整的。
Anthropic 把軟件開發的一些嚴謹做法,比如測試、基準、迭代改進等等,這次引入 Skills 的創作流程。
真的,牛逼太多了。
這絕對對於所有人來說,都是一個史詩級增強。
你要知道,小龍蝦為什麼那麼強,能做那麼多的事,其實真不是因為他本身有多牛逼,純粹是因為,它身上掛的 SKills,太多了,那都是一個一個的技能包。
可以說,Skills,就是整個 Agent 未來大繁榮生態的基石,而我自己,也一直極力的看好和強力推廣各種各樣的 Skills。
所以,我極度建議,大家把 Skill-creator 更新到最新版,然後把你自己所有的 Skills,都進行優化和評估一遍。
當然,你得先分清楚,你寫的 Skills 是哪種。
因為本質上,Skills 其實分兩種。
第一種是能力提升型。
就是教 Claude 做它本來不擅長的事。
比如官方的前端設計 skill、文檔創建 skill,裡面寫了大量技巧,是你光靠 Prompt 根本拿不到的效果。
我們大多數人自己搓的 skill,基本也都是這類。
第二種官方叫編碼偏好型。
就是告訴 Claude 按你的規矩來。
Claude 本身每一步都能做,但你的 skill 把這些步驟按你團隊的流程串起來了。
比如一個會議紀要整理 skill,按你們公司固定的格式,自動把錄音轉成帶行動項的文檔。
或者一個周報生成 skill,從各個平台里拉數據,按你要的格式排好。
你可以把這種,理解成一個 Workflow,就是一個工作流。
對這兩種類型,評估的方向會稍微不太一樣。
對於能力提升型,測的是模型更新之後這個 skill 還有沒有存在的必要。
用 A/B 測試對比,有 skill 和沒 skill 各跑一次。
結果如果差不多,這個 skill 就可以退休了。
編碼偏好型測的是另一件事,它有没有老老實實按你的流程走?
有沒有漏步驟?有没有自作主張改了順序?有没有忘了你特別說過的某個要求?
所以會稍稍有一些區別,這個大家在自己評估的時候,可以注意一下。
回頭想想,以前造完一個 skill,其實也就是自我感覺良好。
但說實話,全是黑盒,根本不知道該怎麼評估。
現在就舒服多了。
評估跑一遍,數據擺出來,好不好用,一眼就見真章。
所有的 Skills,真的都值得重新優化和評估一遍。
Skills 生態。
感覺又要迎來一波大繁榮了。
以上,既然看到這裡了,如果覺得不錯,隨手點個讚、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標⭐~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、可達
>/ 投稿或爆料,請聯繫郵箱:wzglyay@virxact.com