神操作:一個7B的小模型,雇了GPT-5打工,然後贏了測試

一個7B的模型,去雇了GPT-5打工。

GPT-5接受了。

然後那個小模型,在測試裡贏了獨自上場的GPT-5。

我刷到這篇論文的時候愣了大概三秒,然後翻回去重新看了一遍,確認我沒看錯。

我沒有看錯。

先說清楚發生了什麼事。

這週有一篇論文,研究者拿了一個7B的語言模型,透過強化學習訓練,讓它學會一件事:把複雜的問題拆成子任務,然後分配給更強大的模型去做。GPT-5、Claude Sonnet 4、Gemini 2.5 Pro,都可以是它的「下屬」。

這個7B的模型不是執行者,是調度員。

它的工作不是解題,是決定誰來解題、怎麼切題、把哪一塊交給哪個模型。

然後他們拿它去做了一個叫 GPQA Diamond 的測試。這是一個專門設計來考驗高難度多步驟推理的基準,需要綜合運用物理、化學、生物多個領域的知識。單獨用前沿大模型來做,成績已經算不錯。

結果是,這個7B的調度員,超越了單獨使用 GPT-5 的成績,也超越了單獨使用 Claude Sonnet 4 和 Gemini 2.5 Pro 的成績。

我反覆想了一下,為什麼這件事讓我愣住了。

按道理,這個結果不應該讓人吃驚。我們一直知道團隊合作比單打獨鬥效率更高,一直知道好的分工能讓整體超過任何一個個體。這些道理不新,我媽在我小時候就跟我說過。

那我為什麼愣住了?

是因為它第一次用數字證明了這件事。

不是「團隊合作好」這種感覺,是「7B模型調度出來的結果比你單獨用GPT-5要強」這種可以量化的差距。

而且這件事發生在AI身上,讓含義變得格外清晰,因為AI沒有感情,沒有默契,沒有「心往一處想」,有的只是「哪個任務分給哪個模型、用什麼上下文、結果夠不夠好」這種純粹的分配邏輯。

所以這個實驗在說的是,在「分配邏輯」這個維度上做對了,結果會比「參數最大」更重要。

圖片

說說這個7B模型是怎麼被訓練的,這是整件事裡最有意思的細節。

它用的是強化學習,這一點很關鍵。

強化學習學的不是知識,是策略。普通語言模型從大量文本裡學「這個情況下什麼詞最可能出現」,強化學習從大量嘗試裡學「做了這個決定之後,最終結果是好還是壞」。

一個是靜態的統計,一個是動態的判斷。

這個7B模型透過強化學習,形成的是一套「怎麼拆任務、怎麼分配、怎麼驗證結果」的直覺。不是誰告訴它的,是它自己在無數次嘗試和回饋中攢出來的。

這讓我想到一件事,我們常說「管理是一種能力」,但很少說清楚管理能力是怎麼來的。

它不是讀書讀來的,是做了很多次、錯了很多次、被結果回饋了很多次之後形成的。

強化學習和人類的「經驗」,在結構上是同一件事。

讓我再把這個場景講得更具體一點。

這個7B模型在處理一個問題的時候,它寫的不是程式碼,是自然語言。

比如它可能寫「把這道化學題的第一步交給 Claude,因為它在分子結構推理上更穩。把第二步的數學計算交給 GPT-5,因為它在符號推導上更準確」,然後把這個分配方案發出去,等結果回來,再判斷夠不夠好,不夠就重新拆,換角度再問。

這個流程裡,7B模型沒有比任何一個大模型更聰明。

它甚至不知道那道化學題的正確答案是什麼。

它只知道「怎麼用這些比自己強大的工具,把這道題解出來」。

好,這就是觸動我的地方了。

我們現在對AI的主流討論是,哪個模型最聰明,參數最多,訓練數據最多。這些討論默認了一個前提,AI競賽是能力競賽,誰的原始能力更強,誰就贏。

這篇論文提出了另一種可能。

也許真正的差距,不在能力上,在「怎麼用這些能力」上。

這個邏輯對人類也成立,而且我們其實早就知道了,只是一直沒有一個這麼乾淨的實驗來把它量化。

職場裡,大家都見過那種技術能力一般,但帶出來的團隊一直在出活的人。也見過那種個人能力很強,放在管理位置上反而什麼都亂了的人。

前者不是因為技術更好,是因為知道「誰在這件事上比自己更擅長,怎麼讓對方在對的時機做對的事」。

這個能力,和7B模型學到的東西,是同一種東西。

所以這個實驗在說什麼?

我覺得它在說,AI的下一個競爭維度,不是參數,是架構。不是誰單獨最聰明,是誰能最好地協調多個模型協同工作。

對新創公司來說這是個好消息,因為它意味著「你不需要最貴的模型」。你需要的是一套好的調度邏輯。

對大公司來說這是個提醒,光砸算力和參數還不夠,還需要想清楚怎麼讓不同的模型在對的場景發揮作用。

對一般使用者來說,這件事在說一件很具體的事:當你在用AI的時候,你的工作不是「找最聰明的模型」,是「想清楚這個任務的哪一部分交給誰做最好」。

你以為用AI就是找最強的那個,其實真正的事情是,想清楚這個任務的哪一部分交給誰做最好。

我突然想到彼得·杜拉克說過的一句話:「管理的任務,是讓普通人做出不普通的事。」

他說這句話的時候,講的是企業管理。但現在看起來,它也在描述這個7B模型在做的事。

一個普通的小模型,透過正確的分配和調度,讓比自己強大得多的工具,產出了超越預期的結果。

這不是「小模型打敗了大模型」,這是「會用人的人,打敗了最聰明的單打獨鬥者」。

這件事一直在發生,只是過去它發生在人類世界裡,我們用「管理」這個詞來描述它。

現在它在AI的量化實驗裡又發生了一次,用的是 GPQA Diamond 的分數。

區別是,這次有數字。

你可能感興趣的:

OpenAI 庭審危機,一本日記本悄悄揭秘馬斯克出局真相

4B硬剛8B,CyberSecQwen把AI 安全拉回本地:12GB顯卡也能跑

Claude金融部署指南來了:10個代理模板,投行、資管、銀行都坐不住了

蒸餾被污名化了:xAI承認蒸餾OpenAI、Nvidia Nemotron也蒸餾,憑什麼只罵中國實驗室?

OpenAI盯上企業市場:Codex官方最佳實踐發布,AI程式設計師要上崗了

Chrome 靜默吃掉你 4GB 硬碟:這不是 bug,是 feature

全球前三:真實人耳盲測,中國語音模型 TTS終於不是陪跑了

10%價格用Claude:中轉站,把最嚴KYC也繞開了

孫宇晨悄悄做了AI中轉站,89.99美元一年,已經到100萬人

騰訊混元 Hy3 偷偷幹了件大事:兩週拿下 OpenRouter 15.4% 市場份額,三項第一

揭秘養龍蝦最蠢的事,YC 創始人 Garry Tan 自曝在用的 OpenClaw 神提示詞:一句指令,永久生效(文末附提示詞)

一個陽謀,美國商業航天集體暴漲,原來馬斯克不玩模型了:商標曝光"在軌數據中心",目標 1.5 兆 SpaceX IPO

Nvidia黃仁勳揚言AI 代理時代,市場擴大 100 倍,一家做 AI 身份管理的公司實現倍速成長,你敢信嗎?

Claude 團隊想騙我 Token?HTML 替代 Markdown,這技術餅我真的吃不下了!

梁文鋒自掏近30億美元領投首輪融資:DeepSeek估值推至515億美元,V4.1定檔6月

10億倍,AMD CPU 火了,Nvidia老闆黃仁勳親口承認,未來 AI 推論需求將會增長10億倍!文末有影片

普通人用AI代理搞錢,兩個沒人跟你說的熱門賽道

五一,讓 AI 幫我炒股這件事徹底火了

蘋果漲價,600美元的Mac Mini買不到了,本地 Mac跑贏了Claude的帳單,這一點要學會。

你知道現在的女生有多強?App 已死,沒想到 Agent 還能這麼玩。

DeepSeek V4 報告洩漏:270 人團隊,3.7% 流失率,業界最低

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.