一個7B的模型,去雇了GPT-5打工。
GPT-5接受了。
然後那個小模型,在測試裡贏了獨自上場的GPT-5。
我刷到這篇論文的時候愣了大概三秒,然後翻回去重新看了一遍,確認我沒看錯。
我沒有看錯。
先說清楚發生了什麼事。
這週有一篇論文,研究者拿了一個7B的語言模型,透過強化學習訓練,讓它學會一件事:把複雜的問題拆成子任務,然後分配給更強大的模型去做。GPT-5、Claude Sonnet 4、Gemini 2.5 Pro,都可以是它的「下屬」。
這個7B的模型不是執行者,是調度員。
它的工作不是解題,是決定誰來解題、怎麼切題、把哪一塊交給哪個模型。
然後他們拿它去做了一個叫 GPQA Diamond 的測試。這是一個專門設計來考驗高難度多步驟推理的基準,需要綜合運用物理、化學、生物多個領域的知識。單獨用前沿大模型來做,成績已經算不錯。
結果是,這個7B的調度員,超越了單獨使用 GPT-5 的成績,也超越了單獨使用 Claude Sonnet 4 和 Gemini 2.5 Pro 的成績。
我反覆想了一下,為什麼這件事讓我愣住了。
按道理,這個結果不應該讓人吃驚。我們一直知道團隊合作比單打獨鬥效率更高,一直知道好的分工能讓整體超過任何一個個體。這些道理不新,我媽在我小時候就跟我說過。
那我為什麼愣住了?
是因為它第一次用數字證明了這件事。
不是「團隊合作好」這種感覺,是「7B模型調度出來的結果比你單獨用GPT-5要強」這種可以量化的差距。
而且這件事發生在AI身上,讓含義變得格外清晰,因為AI沒有感情,沒有默契,沒有「心往一處想」,有的只是「哪個任務分給哪個模型、用什麼上下文、結果夠不夠好」這種純粹的分配邏輯。
所以這個實驗在說的是,在「分配邏輯」這個維度上做對了,結果會比「參數最大」更重要。
說說這個7B模型是怎麼被訓練的,這是整件事裡最有意思的細節。
它用的是強化學習,這一點很關鍵。
強化學習學的不是知識,是策略。普通語言模型從大量文本裡學「這個情況下什麼詞最可能出現」,強化學習從大量嘗試裡學「做了這個決定之後,最終結果是好還是壞」。
一個是靜態的統計,一個是動態的判斷。
這個7B模型透過強化學習,形成的是一套「怎麼拆任務、怎麼分配、怎麼驗證結果」的直覺。不是誰告訴它的,是它自己在無數次嘗試和回饋中攢出來的。
這讓我想到一件事,我們常說「管理是一種能力」,但很少說清楚管理能力是怎麼來的。
它不是讀書讀來的,是做了很多次、錯了很多次、被結果回饋了很多次之後形成的。
強化學習和人類的「經驗」,在結構上是同一件事。
讓我再把這個場景講得更具體一點。
這個7B模型在處理一個問題的時候,它寫的不是程式碼,是自然語言。
比如它可能寫「把這道化學題的第一步交給 Claude,因為它在分子結構推理上更穩。把第二步的數學計算交給 GPT-5,因為它在符號推導上更準確」,然後把這個分配方案發出去,等結果回來,再判斷夠不夠好,不夠就重新拆,換角度再問。
這個流程裡,7B模型沒有比任何一個大模型更聰明。
它甚至不知道那道化學題的正確答案是什麼。
它只知道「怎麼用這些比自己強大的工具,把這道題解出來」。
好,這就是觸動我的地方了。
我們現在對AI的主流討論是,哪個模型最聰明,參數最多,訓練數據最多。這些討論默認了一個前提,AI競賽是能力競賽,誰的原始能力更強,誰就贏。
這篇論文提出了另一種可能。
也許真正的差距,不在能力上,在「怎麼用這些能力」上。
這個邏輯對人類也成立,而且我們其實早就知道了,只是一直沒有一個這麼乾淨的實驗來把它量化。
職場裡,大家都見過那種技術能力一般,但帶出來的團隊一直在出活的人。也見過那種個人能力很強,放在管理位置上反而什麼都亂了的人。
前者不是因為技術更好,是因為知道「誰在這件事上比自己更擅長,怎麼讓對方在對的時機做對的事」。
這個能力,和7B模型學到的東西,是同一種東西。
所以這個實驗在說什麼?
我覺得它在說,AI的下一個競爭維度,不是參數,是架構。不是誰單獨最聰明,是誰能最好地協調多個模型協同工作。
對新創公司來說這是個好消息,因為它意味著「你不需要最貴的模型」。你需要的是一套好的調度邏輯。
對大公司來說這是個提醒,光砸算力和參數還不夠,還需要想清楚怎麼讓不同的模型在對的場景發揮作用。
對一般使用者來說,這件事在說一件很具體的事:當你在用AI的時候,你的工作不是「找最聰明的模型」,是「想清楚這個任務的哪一部分交給誰做最好」。
你以為用AI就是找最強的那個,其實真正的事情是,想清楚這個任務的哪一部分交給誰做最好。
我突然想到彼得·杜拉克說過的一句話:「管理的任務,是讓普通人做出不普通的事。」
他說這句話的時候,講的是企業管理。但現在看起來,它也在描述這個7B模型在做的事。
一個普通的小模型,透過正確的分配和調度,讓比自己強大得多的工具,產出了超越預期的結果。
這不是「小模型打敗了大模型」,這是「會用人的人,打敗了最聰明的單打獨鬥者」。
這件事一直在發生,只是過去它發生在人類世界裡,我們用「管理」這個詞來描述它。
現在它在AI的量化實驗裡又發生了一次,用的是 GPQA Diamond 的分數。
區別是,這次有數字。
你可能感興趣的:
4B硬剛8B,CyberSecQwen把AI 安全拉回本地:12GB顯卡也能跑
Claude金融部署指南來了:10個代理模板,投行、資管、銀行都坐不住了
蒸餾被污名化了:xAI承認蒸餾OpenAI、Nvidia Nemotron也蒸餾,憑什麼只罵中國實驗室?
OpenAI盯上企業市場:Codex官方最佳實踐發布,AI程式設計師要上崗了
Chrome 靜默吃掉你 4GB 硬碟:這不是 bug,是 feature
孫宇晨悄悄做了AI中轉站,89.99美元一年,已經到100萬人
騰訊混元 Hy3 偷偷幹了件大事:兩週拿下 OpenRouter 15.4% 市場份額,三項第一
揭秘養龍蝦最蠢的事,YC 創始人 Garry Tan 自曝在用的 OpenClaw 神提示詞:一句指令,永久生效(文末附提示詞)
一個陽謀,美國商業航天集體暴漲,原來馬斯克不玩模型了:商標曝光"在軌數據中心",目標 1.5 兆 SpaceX IPO
Nvidia黃仁勳揚言AI 代理時代,市場擴大 100 倍,一家做 AI 身份管理的公司實現倍速成長,你敢信嗎?
Claude 團隊想騙我 Token?HTML 替代 Markdown,這技術餅我真的吃不下了!
梁文鋒自掏近30億美元領投首輪融資:DeepSeek估值推至515億美元,V4.1定檔6月
10億倍,AMD CPU 火了,Nvidia老闆黃仁勳親口承認,未來 AI 推論需求將會增長10億倍!文末有影片
蘋果漲價,600美元的Mac Mini買不到了,本地 Mac跑贏了Claude的帳單,這一點要學會。