夢晨 發自 凹非寺 量子位 | 公眾號 QbitAI
林俊旸,離開阿里通義千問團隊後,首次對外發聲。
他並未回應離職傳聞或宣布下一步動向,而是發表長文探討從「推理模型時代的思考」到「智慧代理人時代的思考」的轉變。
整篇文章聚焦於技術與人工智慧的未來走向,但字裡行間藏不住對千問技術路線的反思。
他在文中坦承「我們並沒有全做對」(We did not get everything right),
千問團隊曾有個雄心萬丈的構想:將思考(thinking)與指令遵循(instruct)兩種模式整合到單一模型中。
Qwen3正是這個方向上「最清晰的公開嘗試之一」,導入了混合思維模式。
但對如今的林俊旸而言仍不夠滿意,他認為最終思考模式變得囉唆且猶豫不決,指令模式則變得不夠俐落、不夠可靠,而且成本更高。
在他看來,真正成功的整合,不是把兩種「人格」硬塞進同一個檢查點(checkpoint),而是讓模型擁有連續的推理努力光譜。
面對未來,他做出這樣的判斷:過去兩年「推理式思考」時代的使命已經完成。
OpenAI的o1與DeepSeek-R1證明了推理能力可以被訓練並重現,這讓整個產業學到一個關鍵認知:
要在語言模型上進行強化學習(Reinforcement Learning),需要確定性高、可規模化的回饋訊號。
從2025年上半年開始,業界幾乎都在研究同一件事:如何讓模型花費更多推理時間、如何訓練出更強的獎勵機制、如何控制推理強度。
現在最關鍵的問題是:下一步是什麼?
林俊旸的答案是「代理人式思考」(Agentic Thinking),亦即智慧代理人思維,在與環境的互動中持續修正計畫。
他列出代理人式思考與推理式思考的關鍵差異:
判斷何時停止思考、開始行動。推理模型輸出答案就結束了,智慧代理人則要在思考與行動之間不斷切換。
選擇呼叫哪個工具、以什麼順序。這不是簡單的函數呼叫(function call),而是動態規劃問題。
消化來自環境的雜訊與部分觀測。真實世界不會給你完美的回饋。
失敗後修正計畫,而非推倒重來。
跨越多輪對話與多次工具呼叫保持連貫性。
他用一句話總結:
從「想得更久」到「為了行動而思考」。
在林俊旸看來,未來的競爭力不僅來自更好的模型,還來自更好的環境設計、更強大的控制框架(harness)工程,以及多個智慧代理人之間的編排協調。
從訓練模型,到訓練智慧代理人,再到訓練整個系統。
(以下為林俊旸原文翻譯。)
從「推理式思考」到「代理人式思考」
過去兩年,重新定義了我們評估模型的方式以及對模型的期待。
OpenAI的o1表明,「思考」可以成為一種原生級別的能力(first-class capability)——一種你可以專門訓練、並向使用者開放的能力。
DeepSeek-R1證明了推理導向的後訓練(post-training)可以在原始實驗室之外被重現並規模化。
OpenAI將o1描述為透過強化學習訓練出「先思考後回答」能力的模型,DeepSeek則將R1定位為能與o1競爭的開源推理模型。
那個階段很重要。
但2025年上半年,產業將大部分精力放在推理式思考上:如何讓模型在推理時耗費更多運算資源、如何用更強的獎勵機制來訓練、如何呈現或控制這些額外的推理強度。
現在的問題是:下一步是什麼?
我認為答案是代理人式思考(agentic thinking)——為了行動而思考,在與環境的互動中思考,並根據來自真實世界的回饋持續更新計畫。
1. o1與R1的崛起真正教會了我們什麼
第一波推理模型教會了我們:
如果想在語言模型上規模化強化學習,我們需要確定性高、穩定且可擴展的回饋訊號。
數學、程式碼、邏輯以及其他可驗證領域變得至關重要,因為這些場景中的獎勵訊號遠強於通用的偏好監督(preference supervision)。
這讓強化學習能夠針對正確性進行最佳化,而非僅追求「看起來合理」。基礎建設變得至關重要。
一旦模型被訓練出能在更長軌跡(trajectory)上進行推理的能力,強化學習就不再是監督式微調(SFT)的輕量附加模組,而是變成一個系統工程問題。
你需要大規模的軌跡採樣(rollout)、高吞吐量的驗證、穩定的策略更新、高效率的採樣。
推理模型的崛起,既是建模的故事,同樣也是基礎建設的故事。
OpenAI將o1描述為一條用強化學習訓練的推理產品線,DeepSeek R1隨後進一步驗證了這個方向——它展示了基於推理的強化學習需要多麼專門化的演算法與基礎建設工作。
第一次重大轉變:從擴展預訓練,到擴展面向推理的後訓練。
2. 真正的問題從來不只是「合併思考與指令」
2025年初,千問團隊中的我們許多人心中都有一幅宏大的藍圖。
理想的系統應當統一思考模式與指令模式。它應支援可調節的推理強度,類似低/中/高推理檔位的設定。
更理想的狀態是,它能從提示與上下文中自動推斷適當的推理量——讓模型自行決定何時直接回答、何時多想一會兒、何時在真正困難的問題上投入大量運算。
從概念上看,這個方向是對的。Qwen3是這個方向上最清晰的公開嘗試之一。
它導入了「混合思維模式」,在一個模型家族中同時支援思考與非思考行為,強調可控的思維預算,並設計了一條四階段後訓練流水線——在長思維鏈(CoT)冷啟動(cold start)與推理強化學習之後,明確包含了「思維模式融合」這一步。
但合併說起來容易做起來難,真正的難點是資料。
人們談到合併思考與指令時,往往首先想到的是模型端的相容性:一個檢查點(checkpoint)能否同時支援兩種模式、一個對話模板能否在它們之間切換、一套推理服務架構能否呈現正確的開關選項。
更深層的問題是,兩種模式的資料分布與行為目標有本質差異。
在試圖平衡模型合併與提升後訓練資料的品質與多樣性時,我們並沒有全做對。
在迭代過程中,我們也密切關注了使用者實際使用思考與指令模式的方式。一個強大的指令模型通常因為簡潔直接、格式規範、低延遲而受到青睞——尤其是在改寫、標註、模板化支援、結構化提取、營運問答(QA)等高重複性、大批量的企業任務上。
強大的思考模型則因在難題上花費更多詞符(token)、保持連貫的中間推論結構、探索替代路徑,並保留足夠的內部運算以切實提升最終正確率而受到青睞。
這兩種行為模式互相拉扯。如果合併資料未經精心策劃,結果通常是兩邊都做得平庸:「思考」行為變得嘈雜、臃腫或不夠果斷,「指令」行為則變得不夠俐落、不夠可靠,而且比商業使用者實際需要的更昂貴。
在實務上,將兩者分離仍然更有吸引力。2025年下半年,在Qwen3最初的混合框架之後,2507版本發布了獨立的Instruct與Thinking更新,包括分開的30B與235B版本。
在商業部署中,大量客戶仍然需要高吞吐量、低成本、高度可控的指令行為來進行批次作業。對這些場景來說,合併的好處並不明顯。分離產品線讓團隊能更專注地解決每種模式各自的資料與訓練問題。
其他實驗室選擇了相反的路線。Anthropic公開主張整合模型的理念:Claude 3.7 Sonnet作為混合推理模型推出,使用者可以選擇一般回覆或擴展思考,API使用者可以設定思維預算。Anthropic明確表示,他們認為推理應該是一種整合的能力,而非獨立的模型。
GLM-4.5也公開將自身定位為同時具備思考與非思考模式的混合推理模型,統合了推理、程式設計與智慧代理人能力。
DeepSeek後來也在V3.1的「Think & Non-Think」混合推理中走向了類似方向。
關鍵問題是,這種合併是否是有機的。如果思考與指令只是被塞進同一個檢查點,卻仍然像兩個彆扭拼接的人格那樣運作,產品體驗仍然是不自然的。
真正成功的合併,需要的是流暢的推理強度連續光譜。模型應該能表達多個層級的推理強度,理想情況下還能適應性地做出選擇。
GPT式的強度控制指向了這個方向:一種關於運算資源分配的策略,而非一個非此即彼的開關。
3. 為什麼Anthropic的方向是一次有用的矯正
Anthropic圍繞Claude 3.7與Claude 4的公開表述是克制的。他們強調整合推理、使用者可控的思維預算、真實世界任務、程式設計品質,以及後來在擴展思考過程中使用工具的能力。
Claude 3.7被呈現為一個具有可控預算的混合推理模型;Claude 4在此基礎上更進一步,允許推理與工具使用交替進行,同時Anthropic將程式設計、長時間執行的任務與智慧代理人工作流程強調為首要目標。
產出更長的推理軌跡並不會自動讓模型更聰明。在許多情況下,過多的可見推理恰恰是運算資源分配低效率的訊號。
如果模型試圖用同樣囉唆的方式對所有事情進行推理,它可能是在無法有效地確定優先順序、無法有效地壓縮資訊,或者無法有效地採取行動。
Anthropic的發展軌跡暗示了一種更有紀律的視角:思考應當由目標工作負載(workload)來形塑。
如果目標是程式設計,那麼思考應當協助程式碼庫導航、規劃、分解、錯誤恢復與工具編排。如果目標是智慧代理人工作流程,那麼思考應當提升長週期內的執行品質,而非產出華麗的中間文字。
這種對目標化效用的強調,指向了更大的圖像:我們正在從訓練模型的時代走向訓練智慧代理人的時代。
我們在Qwen3部落格中明確寫下了這一點——「我們正在從專注於訓練模型的時代,走向以訓練智慧代理人為核心的時代」,並將未來的強化學習進展與面向長週期推理的環境回饋聯繫在一起。
一個智慧代理人(agent)是一個能夠制定計畫、決定何時行動、使用工具、感知環境回饋、修正策略,並在長週期內持續運作的系統。它的定義特徵是與世界的閉迴路互動。
4. 「代理人式思考」到底意味著什麼
代理人式思考是一個不同的最佳化目標。
推理式思考通常以最終答案之前的內部推理品質來衡量:模型能不能解出定理、寫出證明、生成正確程式碼、通過基準測試。代理人式思考則關注的是:模型能不能在與環境互動的過程中持續取得進展。
核心問題從「模型能不能想得夠久?」轉變為「模型能不能以一種維持有效行動的方式來思考?」代理人式思考必須處理幾件純粹推理模型大多可以迴避的事:
決定何時停止思考、採取行動
選擇呼叫哪個工具、以什麼順序
消化來自環境的雜訊或部分觀測
失敗後修正計畫
跨越多輪互動與多次工具呼叫保持連貫
代理人式思考,是透過行動來進行推理的模型。
5. 為什麼智慧代理人強化學習的基礎建設更困難
一旦最佳化目標從解決基準測試問題轉向解決互動式任務,強化學習技術堆疊就要跟著改變,經典推理強化學習的基礎建設就不夠用了。
在推理強化學習中,你通常可以將採樣軌跡視為基本自包含的序列,配以相對乾淨的評估器。
在智慧代理人強化學習中,策略被嵌入到一個更大的控制框架(harness)中:工具伺服器、瀏覽器、終端機、搜尋引擎、模擬器、執行沙箱、API層、記憶系統與排程框架。
環境不再是一個靜態的驗證器,它本身就是訓練系統的一部分。
這帶來了一個新的系統需求:訓練與推理必須更徹底地解耦。
沒有這種解耦,採樣吞吐量就會崩潰。
想像一個程式設計智慧代理人需要在即時測試框架上執行生成的程式碼:推理側因等待執行回饋而停滯,訓練側因缺少已完成軌跡而「飢餓」,整個流水線的GPU利用率遠低於你對經典推理強化學習的預期。
加上工具延遲、部分可觀測性與有狀態環境,這些低效率會被進一步放大。結果就是,在你達到目標能力水平之前很久,實驗就已經慢得令人痛苦了。
環境本身也變成原生級別(first-class)的研究對象。
在監督式微調(SFT)時代,我們著迷於資料多樣性。在智慧代理人時代,我們應該著迷於環境品質:穩定性、真實性、覆蓋度、難度、狀態多樣性、回饋豐富度、防作弊能力,以及軌跡生成的可擴展性。
建構環境已經開始變成一個真正的創業賽道,而非副業。如果智慧代理人是要在類生產環境中運作而訓練的,那麼環境就是核心能力堆疊的一部分。
6. 下一個前沿是更可用的思考
我的預期是,代理人式思考將成為主流的思維形式。
我認為它最終可能取代大部分舊式的「靜態獨白」推理式思考——那些過長的、孤立的內部推理軌跡,試圖透過輸出越來越多的文字來彌補缺乏互動的不足。
即使面對非常困難的數學或程式設計任務,一個真正先進的系統也應該有權去搜尋、模擬、執行、檢查、驗證和修正。目標是穩健且高效率地解決問題。
訓練此類系統最大的挑戰是獎勵作弊(reward hacking)。
一旦模型獲得了有意義的工具存取權限,獎勵作弊就變得危險得多。
一個能搜尋的模型可能學會在強化學習訓練中直接搜尋答案。一個程式設計智慧代理人可能利用程式碼庫中的未來資訊、濫用日誌,或發現讓任務失效的捷徑。一個有隱藏洩漏的環境可能讓策略看起來超越人類水平,實際上卻是在訓練它作弊。
這就是智慧代理人時代變得比推理時代微妙得多的地方。
更好的工具讓模型更有用,但也擴大了虛假最佳化的攻擊面。
我們應該預期,下一批嚴肅的研究瓶頸將來自環境設計、評估器穩健性、防作弊協定,以及策略與世界之間更有原則的介面。儘管如此,方向是明確的。工具賦能的思維就是比孤立的思維更有用,也更有可能真正提升生產力。
代理人式思考還意味著控制框架工程(harness engineering)的興起。核心智慧將越來越多地來自多個智慧代理人的組織方式:
一個負責規劃與分發任務的編排者,多個像領域專家一樣行動的專業智慧代理人,以及執行更狹窄任務的子代理人——它們協助控制上下文、避免資訊污染,並維護不同層級推理之間的隔離。
未來的方向是:從訓練模型到訓練智慧代理人,從訓練智慧代理人到訓練系統。
結語
推理浪潮的第一階段確立了一件重要的事:
當回饋訊號可靠且基礎建設能夠支撐時,語言模型之上的強化學習可以產生質的飛躍式認知能力。
更深層的轉變是從推理式思考到代理人式思考:
從想得更久,到為了行動而想。訓練的核心對象已經改變了——它變成了模型加上環境的系統,或者更具體地說,是智慧代理人與圍繞它的編排框架。
這改變了哪些研究要素最重要:
模型架構與訓練資料當然仍然重要,但環境設計、軌跡採樣基礎建設、評估器穩健性,以及多智慧代理人之間的協調介面同樣關鍵。
這也改變了「好的思考」的定義:
最有用的軌跡,是能在真實世界限制下維持有效行動的那個——而非最長或最醒目的那個。
這也改變了競爭優勢的來源:
在推理時代,優勢來自更好的強化學習演算法、更強的回饋訊號與更可擴展的訓練流水線。
在智慧代理人時代,優勢將來自更好的環境、更緊密的訓練與推理耦合、更強大的編排工程,以及在模型的決策與這些決策產生的後果之間實現閉迴路的能力。
原文網址:https://x.com/JustinLin610/status/2037116325210829168?s=20