神操作：一個7B的小模型，雇了GPT-5打工，然後贏了測試

一個7B的模型，去雇了GPT-5打工。

GPT-5接受了。

然後那個小模型，在測試裡贏了獨自上場的GPT-5。

我刷到這篇論文的時候愣了大概三秒，然後翻回去重新看了一遍，確認我沒看錯。

我沒有看錯。

先說清楚發生了什麼事。

這週有一篇論文，研究者拿了一個7B的語言模型，透過強化學習訓練，讓它學會一件事：把複雜的問題拆成子任務，然後分配給更強大的模型去做。GPT-5、Claude Sonnet 4、Gemini 2.5 Pro，都可以是它的「下屬」。

這個7B的模型不是執行者，是調度員。

它的工作不是解題，是決定誰來解題、怎麼切題、把哪一塊交給哪個模型。

然後他們拿它去做了一個叫 GPQA Diamond 的測試。這是一個專門設計來考驗高難度多步驟推理的基準，需要綜合運用物理、化學、生物多個領域的知識。單獨用前沿大模型來做，成績已經算不錯。

結果是，這個7B的調度員，超越了單獨使用 GPT-5 的成績，也超越了單獨使用 Claude Sonnet 4 和 Gemini 2.5 Pro 的成績。

我反覆想了一下，為什麼這件事讓我愣住了。

按道理，這個結果不應該讓人吃驚。我們一直知道團隊合作比單打獨鬥效率更高，一直知道好的分工能讓整體超過任何一個個體。這些道理不新，我媽在我小時候就跟我說過。

那我為什麼愣住了？

是因為它第一次用數字證明了這件事。

不是「團隊合作好」這種感覺，是「7B模型調度出來的結果比你單獨用GPT-5要強」這種可以量化的差距。

而且這件事發生在AI身上，讓含義變得格外清晰，因為AI沒有感情，沒有默契，沒有「心往一處想」，有的只是「哪個任務分給哪個模型、用什麼上下文、結果夠不夠好」這種純粹的分配邏輯。

所以這個實驗在說的是，在「分配邏輯」這個維度上做對了，結果會比「參數最大」更重要。

說說這個7B模型是怎麼被訓練的，這是整件事裡最有意思的細節。

它用的是強化學習，這一點很關鍵。

強化學習學的不是知識，是策略。普通語言模型從大量文本裡學「這個情況下什麼詞最可能出現」，強化學習從大量嘗試裡學「做了這個決定之後，最終結果是好還是壞」。

一個是靜態的統計，一個是動態的判斷。

這個7B模型透過強化學習，形成的是一套「怎麼拆任務、怎麼分配、怎麼驗證結果」的直覺。不是誰告訴它的，是它自己在無數次嘗試和回饋中攢出來的。

這讓我想到一件事，我們常說「管理是一種能力」，但很少說清楚管理能力是怎麼來的。

它不是讀書讀來的，是做了很多次、錯了很多次、被結果回饋了很多次之後形成的。

強化學習和人類的「經驗」，在結構上是同一件事。

讓我再把這個場景講得更具體一點。

這個7B模型在處理一個問題的時候，它寫的不是程式碼，是自然語言。

比如它可能寫「把這道化學題的第一步交給 Claude，因為它在分子結構推理上更穩。把第二步的數學計算交給 GPT-5，因為它在符號推導上更準確」，然後把這個分配方案發出去，等結果回來，再判斷夠不夠好，不夠就重新拆，換角度再問。

這個流程裡，7B模型沒有比任何一個大模型更聰明。

它甚至不知道那道化學題的正確答案是什麼。

它只知道「怎麼用這些比自己強大的工具，把這道題解出來」。

好，這就是觸動我的地方了。

我們現在對AI的主流討論是，哪個模型最聰明，參數最多，訓練數據最多。這些討論默認了一個前提，AI競賽是能力競賽，誰的原始能力更強，誰就贏。

這篇論文提出了另一種可能。

也許真正的差距，不在能力上，在「怎麼用這些能力」上。

這個邏輯對人類也成立，而且我們其實早就知道了，只是一直沒有一個這麼乾淨的實驗來把它量化。

職場裡，大家都見過那種技術能力一般，但帶出來的團隊一直在出活的人。也見過那種個人能力很強，放在管理位置上反而什麼都亂了的人。

前者不是因為技術更好，是因為知道「誰在這件事上比自己更擅長，怎麼讓對方在對的時機做對的事」。

這個能力，和7B模型學到的東西，是同一種東西。

所以這個實驗在說什麼？

我覺得它在說，AI的下一個競爭維度，不是參數，是架構。不是誰單獨最聰明，是誰能最好地協調多個模型協同工作。

對新創公司來說這是個好消息，因為它意味著「你不需要最貴的模型」。你需要的是一套好的調度邏輯。

對大公司來說這是個提醒，光砸算力和參數還不夠，還需要想清楚怎麼讓不同的模型在對的場景發揮作用。

對一般使用者來說，這件事在說一件很具體的事：當你在用AI的時候，你的工作不是「找最聰明的模型」，是「想清楚這個任務的哪一部分交給誰做最好」。

你以為用AI就是找最強的那個，其實真正的事情是，想清楚這個任務的哪一部分交給誰做最好。

我突然想到彼得·杜拉克說過的一句話：「管理的任務，是讓普通人做出不普通的事。」

他說這句話的時候，講的是企業管理。但現在看起來，它也在描述這個7B模型在做的事。

一個普通的小模型，透過正確的分配和調度，讓比自己強大得多的工具，產出了超越預期的結果。

這不是「小模型打敗了大模型」，這是「會用人的人，打敗了最聰明的單打獨鬥者」。

這件事一直在發生，只是過去它發生在人類世界裡，我們用「管理」這個詞來描述它。

現在它在AI的量化實驗裡又發生了一次，用的是 GPQA Diamond 的分數。

區別是，這次有數字。

你可能感興趣的：

OpenAI 庭審危機，一本日記本悄悄揭秘馬斯克出局真相

4B硬剛8B，CyberSecQwen把AI 安全拉回本地：12GB顯卡也能跑

Claude金融部署指南來了：10個代理模板，投行、資管、銀行都坐不住了

蒸餾被污名化了：xAI承認蒸餾OpenAI、Nvidia Nemotron也蒸餾，憑什麼只罵中國實驗室？

OpenAI盯上企業市場：Codex官方最佳實踐發布，AI程式設計師要上崗了

Chrome 靜默吃掉你 4GB 硬碟：這不是 bug，是 feature

全球前三：真實人耳盲測，中國語音模型 TTS終於不是陪跑了

10%價格用Claude：中轉站，把最嚴KYC也繞開了

孫宇晨悄悄做了AI中轉站，89.99美元一年，已經到100萬人

騰訊混元 Hy3 偷偷幹了件大事：兩週拿下 OpenRouter 15.4% 市場份額，三項第一

揭秘養龍蝦最蠢的事，YC 創始人 Garry Tan 自曝在用的 OpenClaw 神提示詞：一句指令，永久生效（文末附提示詞）

一個陽謀，美國商業航天集體暴漲，原來馬斯克不玩模型了：商標曝光"在軌數據中心"，目標 1.5 兆 SpaceX IPO

Nvidia黃仁勳揚言AI 代理時代，市場擴大 100 倍，一家做 AI 身份管理的公司實現倍速成長，你敢信嗎？

Claude 團隊想騙我 Token？HTML 替代 Markdown，這技術餅我真的吃不下了！

梁文鋒自掏近30億美元領投首輪融資：DeepSeek估值推至515億美元，V4.1定檔6月

10億倍，AMD CPU 火了，Nvidia老闆黃仁勳親口承認，未來 AI 推論需求將會增長10億倍！文末有影片

普通人用AI代理搞錢，兩個沒人跟你說的熱門賽道

五一，讓 AI 幫我炒股這件事徹底火了

蘋果漲價，600美元的Mac Mini買不到了，本地 Mac跑贏了Claude的帳單，這一點要學會。

你知道現在的女生有多強？App 已死，沒想到 Agent 還能這麼玩。

DeepSeek V4 報告洩漏：270 人團隊，3.7% 流失率，業界最低

神操作：一個7B的小模型，雇了GPT-5打工，然後贏了測試

相關文章推薦

分享網址