Z Tech|對話王子涵:離開DeepSeek,我人生的逆向思考

圖片
圖片

01 導語

很多人認識王子涵,是從Twitter上開始的。

當時隨著DeepSeek R1、V3的相繼發布,西方技術社群第一次大規模感受到這家中國公司的存在,也由此將目光投向站在第一線的研究者。這位年輕研究者的推特帳號突然湧入大量關注。他至今還記得,當時西方從業者對DeepSeek的震撼,就像目睹了一種「來自東方的神秘力量」,甚至還流傳著不少有趣的傳言,連梁老闆的照片都被傳錯,至今沒更正過來。

最初,他只是想做一件簡單的事:把真實情況講清楚:講DeepSeek是如何做研究、團隊的工作方式、以及那些被忽略的技術細節。希望盡可能在資訊失真之前,提供一個更接近第一線的視角。巧合的是,昨天準備訪談內容時,遇上了DeepSeek V4的發布,王子涵早期在DeepSeek的親身經歷,也補充了更多關於這家神秘公司的第一手資訊。

但比起這段略帶偶然的「爆紅」,更能定義王子涵的,是一條更早開始、也更穩定的技術路徑——他對Agent system的持續探索。

他進入中國人民大學開啟電腦研究的時間點,恰好在一個「前範式」階段:GPT-2已經驗證了生成式架構的潛力,但學界與業界的主流重心,仍然停留在以BERT為代表的非生成式範式之上——圍繞分類、資訊檢索、表示學習與任務拆解不斷深化。也正是從那個階段起,他沿著一條清晰卻不張揚的技術路徑持續推進:從推薦系統與資訊檢索演算法出發,延伸至Berkeley的強化學習交流計畫,以及與UIUC合作開展的MINT Agent benchmark研究;隨後進入DeepSeek,圍繞MoE模型中的專家Specialization(專業化)展開深入探索,並在此後的博士階段,將問題進一步下探至Agent強化學習的底層機制,持續追問其能力邊界與實現路徑。

與許多從大模型能力出發進入這一領域的研究者不同,他的起點更樸素:一個AI系統,是否可以像人一樣,在沒有持續外部指導的情況下,自主學習、自主改進?

在這一問題之下,他引入馬可夫決策過程MDP(Markov Decision Process)來抽象Agent的決策閉環:狀態(state)、動作(action)、轉移(transition)與回饋(reward)共同構成一個自洽的系統。但他的興趣並不止於傳統強化學習對「策略優化」的關注,而是一個更具挑戰性的主題——構建真正理解世界的Agent,在行動發生之前,就已經在內部完成了對未來的預演與模擬。

這也成為他後續所有工作的起點。作為直博二年級學生,他已在NeurIPS、ICLR、CVPR、EMNLP等AI頂級會議上發表十餘篇論文,google scholar citation 1600餘次,並包攬NeurIPS LAW outstanding paper,ICCV SP4V best paper等榮譽。無論是最早探索的Agentic scaling law,還是之後持續推進的RAGEN 1/2,VAGEN,MindCube等框架,核心都指向同一個問題:如何讓Agent的決策,從「對輸入的回應」,轉變為「基於世界演化的判斷」。

圖片

圖為RAGEN 1,受訪者提供

在這次對話中,我們試圖回到這些問題的起點:從他最早的研究經歷出發,穿過在DeepSeek的第一線實踐,再到他當下對Agent的系統性思考,去還原他個人的研究與探索是如何一步步展開的。以下為Z Potentials與王子涵的對話實錄,Enjoy!

Z Highlights:

  • 後來慢慢發現,很多看似高深的idea可能只是包裝,甚至在複現實驗時會發現根本跑不通。我開始具備辨別能力,能看出哪些工作外表華麗、公式複雜,實則並不成立。我產生了一種逆向思考:既然有些看上去高深的領域未必如此,那一些看似比較工程化的領域,會不會反而也沒有那麼簡單,做出一篇工作也需要很多的努力?

  • 我當時特別感慨,怎麼會有研究員密度這麼高的公司。之前待過的地方,200個人裡能有10個專職研究員就很好了,但在DeepSeek,這200人裡幾乎多多少少都在做研究相關的事。就算不是專職研究員,每天也會在群組裡分享最新的大模型進展、大廠動態,連HR都會轉發相關新聞,氛圍特別不一樣。

  • 還有一件事讓我印象很深,當時在DeepSeek有位做infra的前輩,我第一次提交程式碼時,前輩逐行幫我修改,每一行都能找到優化空間。比如透過in-place操作避免重新克隆張量。我覺得so amazing。

  • 之前有人問我:到底什麼才是Agent?我覺得,一個東西算不算Agent,取決於它被放在什麼樣的Physical或Digital環境裡。給它完全開放的電腦環境,它就是OpenClaw;給它受限電腦環境,它就是Claude Code或Codex;只給一個聊天介面,它就是GPT環境的開放程度,決定了Agent從0到1的智能指數。

  • 很多任務的設定都是給你一筆錢,把任務做得越漂亮越好。但更重要的是:一個真正具備資源適應能力的人或Agent,給他一萬塊能做出一萬塊的效果,給他一百萬就能做出一百萬的效果。我們希望打造的,就是這種高度自適應資源約束的Agent

02 從人大IR到柏克萊RL:「沒有人脈,就從Office Hour突圍」

ZP:歡迎子涵,先從你早期的科研經歷聊起吧。在人大讀書初期,什麼樣的契機開始接觸AI領域的?當時有哪些特別的故事嗎?

王子涵:我接觸AI比較早,2020年讀大學,2021年初就開始正式做AI相關科研。這得益於人大的培養模式:大一上不分科系,所有理科生一起上課,選課自由度很高,學校也開了人工智慧、統計學這類課程。那段時間我其實更偏向統計學,當時國內也普遍認為大學應該打好數理基礎,多學數學和統計。

但我不想只走統計一條路,於是主動聯繫了人工智慧學院的老師,進入課題組做研究。那時GPT-3已經有了,但對文字生成模型的研究遠不如非生成式模型(如BERT等)多。我在組裡主要做推薦系統和搜尋演算法,用比較基礎的DPR、RAG做QA任務。坦白說那段科研很枯燥,沒有生成能力,很多事情都要靠人工精細設計。比如做QA要從原文裡抽span,做conditional QA還要抽條件特徵,把condition和answer一一對應。雖然做法很傳統、很手工,但我已經初步感受到了AI的意義——我們的AI模型在現實生活中的應用逐漸轉向自然語言,相比於隔壁做SVM的傳統結構化資料方向已經要廣得多。

ZP:剛進入AI領域,你的選題或研究方向基本上是組裡的教授安排嗎?

王子涵:我選的教授在人大AI學院口碑好,學生的去向也不錯,最初更多是憑口碑和感覺選的。方向後來也有變化,最開始做的是資訊檢索(IR)。這個計畫做完之後,萌生了出國的想法,大二申請了大三去柏克萊交換。

之後方向就換了好幾次。回頭看大學階段,最有趣的還是那段IR的科研經歷。我們有一篇投CIKM的工作,核心是:能不能用生成模型做資訊檢索?當時我們嘗試讓GPT逐個生成文件對應的token,每個文件對應一串token,做推薦或搜尋時就讓模型生成這串token,匹配到哪個文件就返回哪個。這裡面的困難點有點類似早期GPT的幻覺——讓它引用文獻,它會編出不存在的條目。為了解決這個問題,我們提出了約束解碼的方法,給模型限定一個文件庫,強制它只能在庫內的token序列中解碼,確保生成結果精準指向庫內文章。

ZP:在整個海外學術交流的過程中,你收穫了什麼?

王子涵:柏克萊的經歷讓我變得非常獨立。我認識的學長裡只有一個去過柏克萊,還是數學方向,和我完全不相關,沒有任何經驗可以參考。剛去時人生地不熟,甚至不覺得自己能找到教授做科研。

沒有現成人脈,我就從上課找突破口。選課可以利用老師的office hour直接交流,也有機會跟著學習。我當時選了Sergey Levine的強化學習課,每次下課都主動去問問題。課程大作業讓我印象很深,那時開始用OpenAI Gym,我覺得RL特別有意思,這也是後來我兜兜轉轉還是回到RL的原因。在我看來,RL和SFT的區別在於,它讓模型具備自我進化的可能,就像AlphaGo到AlphaZero那樣。課程大作業允許自主選題,我關注到OpenAI的VPT(Video Pre-training)工作,讓模型透過觀看影片學習動態模型,像人看遊戲實況學操作一樣。我在一個簡化的2D類Minecraft環境裡實現了一個低配版,效果還不錯,那堂課也拿到了滿分。

當時還處在探索階段,對這份滿分作業挺滿意的。但我也意識到不能只停留在課程層面,我看到有同學把課程作業改成論文並成功投稿,覺得很受啟發。

我跟Sergey提出想做科研,他把我推薦給一位學長,但聊下來發現方向興趣不太匹配。此後也嘗試接觸了一些其他組,柏克萊校內和校外的都有,有一些也認真做了一段時間,但有很長一段時間都沒有真正做出來收尾的項目。

一開始我覺得科研是很神聖的事,要鑽研宏大概念或高深想法。但後來慢慢發現,很多看似高深的idea可能只是包裝,甚至在複現實驗時會發現根本跑不通。我開始具備辨別能力,能看出哪些工作外表華麗、公式複雜,實則並不成立。我對科研也不再像大一大二那樣抱有仰望心態,更多以觀察者的視角去看待別人的工作。

這種心態一直持續到申請暑期研究。我產生了一種逆向思考:既然有些看上去高深的領域未必如此,那一些看似比較工程化的領域,會不會反而也沒有那麼簡單,做出一篇工作也需要很多的努力?

那時我找到了UIUC的教授季姮和Mentor星堯,他現在在All-Hands AI做Coding Agents創業。我們當時聊要不要一起做一個benchmark。很多人覺得benchmark簡單、不夠「性感」,但經過之前的思考,我意識到看似簡單的事情背後也需要極強的嚴謹性,比如搭建分類體系、定義能力維度、編寫大量嚴謹的test case。我那時才明白,做benchmark本身也不是一件容易的事。

我是2023年3月找到他的,當時他就提議,我們可以一起做Agent benchmark。

ZP:那個時候,關於Agent大家理解是什麼樣子?

王子涵:2022年底ChatGPT出現,很多人第一次意識到AI可以流暢對話,但很少有人進一步去想:AI除了聊天,是否能主動操控現實世界中的工具?它自己生成的token,能不能轉化為真實行動,並在執行後讀取環境回饋?當時大家的思考慣性非常強,之前做QA還普遍在用BERT抽特徵,從這種慣性裡跳出來,其實是一件很有挑戰的事。

我們剛開始籌劃做Agent benchmark時,正好Meta在2023年2月發表了Toolformer,算是當時最先進的Agent相關工作之一。它定義了月曆、計算器等5個工具,讓Agent完成簡單數學題之類的測試,雖然提出了基本的tool use思路,但並沒有形成一套系統化的benchmark。

於是我們就在思考:既然大家都看到了Agent的潛力,下一步該怎麼做?我們意識到,Agent在與世界互動的過程中,有兩類核心資源至關重要:一類是工具(tools),另一類是人類

當時ChatGPT也在推進工具能力,我們便設想了一種工具+人類回饋的Agent架構,和後來的TauBench思路比較接近:讓Agent能夠呼叫一系列工具,並結合人類回饋持續優化決策。這兩類回饋的本質截然不同:

  • 來自工具的回饋是可驗證的客觀事實,比如查詢、計算結果,Agent應該直接當作真實依據使用;

  • 來自人類的回饋則較嘈雜,比如用戶會指責、表達不清,甚至需要Agent反問才能明確意圖。

圖片

圖為MINT benchmark框架,受訪者提供

基於此,我們構建了一個融合tools + Agent + simulated user的基準測試。這項工作在暑期研究結束後完成,大概2023年9月左右發布。從那之後,我就開始系統地深入研究Agent相關方向。

ZP:當時的能力做Agent還是過於困難,模型的tool calling能力比較弱,也沒有像樣的推理,所以包括多Agent這類框架基本都很難落地。

王子涵:尤其當時沒什麼合適的任務能給Agent用,整體能力還支撐不了複雜場景。最後能做的基本上也就是RAG和程式碼相關,讓模型自己寫程式碼、過驗證器,再根據回傳結果迭代。現在看,純文字Agent最主流的場景也還是這兩類:搜尋Agent和程式碼Agent。

ZP:從2024年到現在,你觀察到benchmark已經趨於飽和了嗎?

王子涵:那個階段其實條件很有限,當時連GPQA這種研究生等級的問答基準都還沒有,主要用的還是HotpotQA、TheoremQA,以及程式碼類的HumanEval和MBPP。以現在的眼光看,當年這些資料集上的任務,如今的Agent基本上都已經做得比較成熟了。這兩年多時間,變化確實非常大。

03 王子涵親歷:200人的DeepSeek,程式碼一行一行改,HR都在分享模型進展細節

ZP:在這之後你大三結束進入DeepSeek,對你來說是一個怎樣的開始?是什麼樣的故事讓你進入DeepSeek?

王子涵:從UIUC暑期研究回來後,我就開始申請PhD。很幸運,我拿到了UIUC學姐曼玲在西北大學課題組的錄取通知,之前和她聊過,彼此方向、風格都很合得來,之後就正式申請並確定了去向。

敲定PhD之後,我有一個類似gap的學期,那段時間心態很輕鬆,方向已經定了,不用再背負各種不確定性,於是就開心地投了履歷。

當時我只投了兩家公司:一家是DeepSeek,另一家是新創公司,兩邊都給了錄取,最後我選擇了DeepSeek。過程其實挺順利的,我也沒廣發履歷,就想著隨緣試試,沒中就大四下半學期好好玩、放鬆一下,不過最後面試一路比較順利。

DeepSeek給我的感覺很不一樣,他們不是在考八股面試,而是結合我的研究經歷和公司的技術方向,問非常針對性的問題,後來我發現DeepSeek很多同事都是這種風格。這家公司會高度客製化面試,說明他們對每位求職者都很用心,至少會提前看你的履歷、你的研究、你在做什麼。這種感覺和我當時PhD面試很像:他們關心的是你這個人,希望你進來之後能落地一個具體的科研項目,而不是隨便安排雜活、做完了事。正是這一點打動了我,於是我就加入了。

ZP:在那個階段,DeepSeek還是一個不那麼封閉的地方。現在基本上都不太招收短期的intern。當時人多嗎?規模如何?

王子涵:當時公司大概就200人。我當時特別感慨,怎麼會有研究員密度這麼高的公司。

之前待過的地方,200個人裡能有10個專職研究員就很好了,但在DeepSeek,這200人裡幾乎多多少少都在做研究相關的事。就算不是專職研究員,每天也會在群組裡分享最新的大模型進展、大廠動態,連HR都會轉發相關新聞,氛圍特別不一樣。

ZP:你在DeepSeek裡面主要是做了什麼?有做自己的research,還是說主要是參與主流model的training和inference?

王子涵:都有做,主要是兩項工作,一個是V2的開發,另外一個是expert specialization tuning。

V2屬於新模型研發,公司員工都參與其中,大家當時也日常使用這個模型。我會重點觀察模型的輸出邏輯與流暢度,若出現問題,會進行歸因並提出反饋。這部分工作更偏向工程方向,當時我更多是抱著學習的心態,畢竟公司裡前輩眾多,強者如雲,學到就是賺到。

從V1到V2的迭代,是一個多想法碰撞的過程。外界看到的核心成果可能只有MLA架構和更精細的專家切分,但內部實際涉及架構優化、訓練後調優、資料收集等多個環節。每天都能接觸到各類創新思路,這是很好的學習機會。透過與同事交流模型設計邏輯,我也累積了大量模型研發直覺,比如關注哪些指標、特定程式碼對模型效能的潛在影響等。

還有一件事讓我印象很深,當時有位做infra的前輩,我第一次提交程式碼時,前輩逐行幫我修改,每一行都能找到優化空間。比如透過in-place操作避免重新克隆張量。我覺得so amazing。

我自己負責的項目更具探索性。當時公司正逐步遷移到MoE(混合專家模型),核心需求是解決MoE模型的專業化微調問題。當時業界與微調相關的工作,基本上都採用LoRA及其變種,核心是透過矩陣分解壓縮參數,無需調整全部參數。這種方式雖能實現目標,但應用在MoE模型上時,我們發現了可優化空間。

MoE模型本身自帶顯性的專家結構,而LoRA之所以只需少量參數,核心是透過少量參數撬動模型中與任務相關的局部參數,本質也是在尋找對任務有效的參數分解。而MoE的專家結構,恰好提供了這種顯性分解。我們在前期先導研究中發現,DeepSeek堅持的細粒度MoE,其專家分化程度遠優於當時市面上部分論文中採用的「八選一」專家結構——不同任務所激活的專家完全不同。當時,我產生了一個想法:既然微調的核心是更新參數係數,那能否直接定位到與任務最相關的專家,對其進行針對性微調?這一思路最終形成了我們的ESFT論文(發表在EMNLP 2024)。

其實當時我是圍繞需求找解決方案,那時候就深刻體會到,只要有明確的需求,基於需求撰寫論文會非常高效。之後我所有寫得快的論文,都是遵循這個邏輯——發現一個未被關注的核心需求,然後針對性地落地解決方案,這和單純花費大量時間打磨細節、雕琢形式的體驗完全不同。

從這項工作本身來看,透過針對性微調相關專家實現參數更新,有兩個核心優勢。一是能節省顯存資源,二是能降低MoE模型中不相關專家的噪音,提升訓練的信噪比。如果強行讓不相關的專家去擬合當前任務,會導致模型在其他任務上的效能出現斷崖式下跌。而我們的方法,能在微調新任務的同時,讓模型在原有任務上的效能幾乎沒有下降,核心就是沒有干擾到不相關的專家,也避免了模型過度擬合到單一任務。

ZP:所以MoE是DeepSeek很早以前定下來的方向,他們是怎麼樣定出來的?畢竟當時除了MoE的混合專家架構,千問、GLM、Llama等早期模型都是稠密模型,只有GPT-4採用了MoE架構,DeepSeek為什麼能早早判斷出MoE是未來的發展方向?

王子涵:我認為核心是「實驗出真知」,DeepSeek內部的實驗做得極其嚴謹。我在那裡學到一個重要理念:僅僅自己相信某個方向是不夠的,還要為相反的觀點留出充分的辯論和驗證空間。哪怕團隊主觀上已經非常認可某個結論,還是會做大量消融實驗,假設反方觀點成立,去驗證其可行性、尋找潛在問題。

我自己做ESFT(專家專業化微調)相關論文時,就深刻體會到了這一點。哪怕我已經非常確定自己的方法是可行的,我的Mentor還是會不斷追問我:如果這個方法不可行,問題會出在哪裡?之後我做了大量消融實驗,反覆驗證、確認方法的有效性後,才最終將其整理成論文發表。我們做核心實驗的時間其實只有一個月,但做消融實驗、嚴謹打磨論文的時間要長得多。

DeepSeek就是這樣,對待每一個技術方向都極其嚴謹,會全面測試各種元件和特性,只有經過反覆驗證、確認切實可行,才會確定其方向。我覺得正是這種嚴謹的實驗態度,讓他們早早判斷出MoE是未來的核心方向。

ZP:在我的印象裡,DeepSeek也是比較早提出細粒度MoE(fine-grained MoE)理念的,稀疏比達到1:32,比八選一、四選一的架構更加稀疏。這種設計可能屬於不同的MoE架構思路,也可能是工程驅動下的選擇。V2專案之後,你相關的MoE研究成果,最終有應用到模型的最終方案裡嗎?還是說目前仍停留在研究階段?

王子涵:這就不得不提到訓練後調優(post-training)的相關工作了,其實這裡面涉及兩個方向。第一個方向類似現在的Thinking Machine Labs,核心是基於大模型,為客戶定製小型模型,以API的方式定製做訓練優化和部署服務。當時OpenAI、字節跳動等公司都已經上線了類似的微調功能——他們提供模型基座,用戶無需了解底層架構,只需基於基座進行訓練,就能得到客製化模型。但等到DeepSeek V3推出時,公司的優先級更側重在提升模型能力方面,所以客製化方向的商業化這件事的優先級就被調低了。

圖片

圖片由受訪者提供

第二個方向更具探索性,核心不是讓下游用戶去定製、訓練模型——雖然我們已經實現了微調新任務時不影響原有任務效能這一優勢,但我們想進一步探索:能否將不同任務根據其性質,分配到不同的任務組,每個任務組內部的任務需要的能力較為相近,而針對每一類任務組,只微調其最偏好的專家。這樣一來,在訓練任何一個任務時,都能減緩「翹翹板效應」——比如訓練任務a時,導致任務b的效能下降,進而需要反覆訓練所有任務。當時這個思路已經明確,但因為我在西北大學已經開學了,無法在DeepSeek繼續進行全職工作,就沒能繼續推進這項研究。

ZP:你有沒有想過延後入學半年,繼續留在公司工作?比如等到V3專案結束。

王子涵:當時我確實考慮過留下或離開這兩種選擇。之所以最終選擇去美國讀博,很大一個原因是,美國曼玲老師課題組的研究方向,是我當時在國內完全接觸不到的,包括VLA、機器人技術以及各類多模態相關內容。

圖片

我當時覺得多模態領域非常有吸引力,因為在國內,我能接觸到的課題組裡,很少有專注於多模態研究的。這其實是一個方向上的選擇,我本身就很喜歡探索新領域——大學期間因為各種原因,我也換過很多研究方向,中間還做過LLM人格個性化相關的工作,雖然最終沒有產出論文,但那段探索經歷也讓我收穫很多。所以當時選擇讀博,核心還是出於對研究方向的考量。

ZP:沒有記錯的話,還有一個小插曲——R1和V3推出後,你在推特上受到了很高的關注。那段時間具體是什麼情況?

王子涵:那段時間最深的體會是,西方業界人士了解到DeepSeek後,產生了很強的震撼感,我很難用恰當的語言形容,大概就像他們目睹了一種來自東方的神秘力量。當時還出現了很多我從未聽過的傳言,甚至到現在,還有不少人在推特上發布的梁老闆照片都是錯的,一直沒有更正。

當時我有很多想分享的內容,比如想跟大家真實展現DeepSeek的工作狀態,以及我感受到的公司情懷和核心價值。一開始還想著幫公司宣傳一下,因為我加入時,公司的推特粉絲大概只有1萬左右,但後來公司的影響力逐漸提升,完全不需要我再做宣傳了。

其實我很小的時候就喜歡在B站發影片,當我對一件事有強烈表達慾時,往往能激發很多靈感,包括一些想法和有趣的梗——這些梗既能讓自己樂,也能讓別人會心一笑,笑過之後還能引發對相關問題的思考。那段時間在推特上,我聊得最多的是開源相關的話題,雖然現在行業整體還是逐漸走向封閉原始碼,但當時能為開源做一點小小的抗爭,那種感覺還是很有意義的。

ZP:DeepSeek給我的一個印象是,它在infra層面的能力很強,也比較強調infra與algorithm之間的協同。他們在寫paper的時候,也會比較細緻地展開算子和排程這些實現層面的內容。在這樣的環境裡,你有沒有受到一些影響?

王子涵:最典型的例子就是我剛才提到的,我第一次提交程式碼時,我的導師逐行幫我修改,每一行都能找到優化空間。其實對比當時市面上其他MoE模型,哪怕是DeepSeek開源的V2版本程式碼,其推理部分也只比其他的模型有10到20行程式碼的改動,但這每一行都是精心設計的。即便不了解公司內部情況,單看開源版本,其品質也非常出色,計算效率遠高於當時市面上的其他模型。

這其中就涉及到infra層面的細節優化,比如計算圖如何計算梯度、梯度如何回傳、怎樣實現最佳通訊、如何透過減少張量建立來節省資源等。我覺得這種文化最核心的是一種資源預算意識——在資源有限的情況下,如何做出最佳決策。其實我加入時,公司的資源是很充足的,200人配備1萬張顯示卡,這是我大學時完全無法想像的,但後來也意識到,要訓練一個超級大模型,1萬張顯示卡依然顯得不足,這也更凸顯了infra最佳化、資源高效率利用的重要性。

ZP:非常巧合的是,我們稿件發布的前一天,DeepSeek發布了V4,你怎麼看這次的新發布?

王子涵:我對模型和技術路線等沒有什麼特別想說的,我覺得他們一直都走在正確的道路上。但我非常喜歡V4發布公告裡的一句話:「不誘於譽,不恐於誹,率道而行,端然正己。」對任何一個研究者而言,堅持做自己覺得正確的事,保持前進的步伐平穩,踏實地去驗證每一個假設,讓外界噪音的影響下降到最小。這個方向,就是前進最快的方向!

04 Agent System:環境開放程度決定智能上限,而非算力或資料規模

ZP:你從很早以前就開始想做Agent system,最開始加入西北大學讀PhD做的project,你想解決什麼問題,進展怎麼樣?

王子涵:我做Agent相關項目的核心初心,是希望Agent能自主學習、無需人刻意教導。這受我成長經歷影響,父母一直引導我自主學習,也讓我更傾向於RL思路,我始終認為最終型態的RL會相對現有「生成體驗+梯度下降 (experience + gradient descent)」模式的型態有較大改變,核心是讓模型實現自主提升,也就是後來大家說的 self-evolving 。

我做的第一個相關研究是Agent縮放定律(Agentic scaling law),當時我們將Agent抽象為包含狀態(state)和動作(action)的馬可夫決策過程(MDP)。核心思路是,判斷Agent是否理解世界,不能只看策略(給定狀態s輸出動作a),而要能對MDP任意環節「完形填空」,挖掘其世界建模能力——比如透過動作預測下一狀態、透過狀態與後續狀態反推動作,這也是我們實驗室目前推進工作的核心邏輯,比如VAGEN(Vision Agent, NeurIPS 2025) 本質就是這種完形填空思路的落地。

起初我嘗試設計統一的完形填空框架但未成功,後來調整思路,決定循序漸進先做好策略。讀博後,我發現Verl框架可應用於Agent構建,便做了簡單的概念驗證(PoC),由此誕生了RAGEN。第一版RAGEN未做過多工程最佳化,效率不及同期的SGlang,我也意識到工程最佳化的重要性,後續首要任務便是攻克這一難點。

RAGEN初版於去年1月27日發布,巧合的是,今年1月27日的RAGEN一週年紀念日,也是DeepMind的AlphaGo論文發布10週年。在過去的一年裡,我經歷了多次研究失敗,也總結出了新的研究論點,目前正基於這套論點重新定位,開展新的探索,初代RAGEN也是我剛到西北大學第一個學期的核心工作。

圖片

圖片由受訪者提供

ZP:RAGEN的第二代主要是關注推理失敗案例,以及強化學習失敗模式(RL failure mode)相關的問題,它也從一個偏向infra定義的研究,轉變為一篇基於觀察的論文。在這篇論文中,你們主要的觀察結果是什麼?你覺得有哪些方法可以改善這種觀察?

王子涵:我們梳理了去年W&B上記錄的幾千個實驗,發現強化學習的不同領域中,多輪Agent強化學習(multi-turn Agentic RL)領域推進難度遠大於推理領域。

在數學、程式碼等推理領域,模型reasoning長度會隨訓練增加,直觀體現模型逐步學會深入思考;但在多輪Agent RL領域,我們測試20多個任務後,始終無法複現這一現象,反而模型推理長度持續下降。我們認為,長度只是表象,我們更需要深入理解這個長度背後,真正反映的模型推理能力和決策邏輯是什麼。

ZP:導致這種現象的原因,是不是與你所定義的環境有關?你所在的框架或所在定義的環境是軟體工程/程式碼(SWE),還是類似小遊戲(Gym)?

王子涵:我們的實驗環境更偏向分佈外(OOD)場景,也就是Agent不熟悉的場景。程式碼或者數學等任務一般在模型的預訓練/後訓練階段都進行大量的訓練,做Agent RL時推理長度下降現象更緩和,但這類規整任務僅佔Agent實際應用場景的一部分。除此之外還有大量Agent實際使用場景,比如GUI Agent(即網頁點擊)、遊戲(如Sokoban)等任務,這些都是Agent不熟悉的任務。

更具挑戰性的是,訓練無法窮盡所有基準測試,測試時必然出現OOD任務。我們實驗室在SPA這篇paper中,採取狀態困惑度State Perplexity)作為OOD環境的檢測指標,發現推箱子任務困惑度接近200多,遠高於WebShop、數學、程式碼等任務。

圖片

圖片由受訪者提供

我們的目標是將Agent部署到現實中,而現實中OOD場景最易出問題,需重點加強理解;且「推理長度下降」並非僅存在於OOD任務,分佈內任務中,也可能因Agent推理雜訊,導致任務偶然答對後推理鏈縮短。

ZP:這種「偶然答對後推理鏈變短」的現象,在不同類型任務中表現是否一致?

王子涵:差異非常明顯。程式設計、數學任務有極強因果鏈,「過程對則結果對」;但推箱子、WebShop等Agent任務,可能步驟錯誤仍能完成任務,且這類任務狀態轉移多帶隨機性。我曾在Yutori實習接觸GUI Agent業務,發現長程多模態Agent訓練難度大,比如讓Agent透過點擊網頁來訂機票仍是未完全攻克的難題。我們觀察到,模型效能提升的同時,推理卻愈發脆弱,後續抽象出「模板坍縮」現象——模型傾向於輸出不隨prompt變化的「套話」。

那「套話」到底該如何定義?本質上,它指的是不隨題目變化而變化的推理鏈——無論輸入什麼prompt,模型都傾向於重複相同的表述。意識到這一點後,我開始尋找理論框架來解釋這種現象。於是我回歸資訊論的底層,去研讀早期的論文,最終意識到:對於輸入X和推理Z,推理的總多樣性H(Z),由兩部分組成。第一部分是「同題多解」——給定輸入X之後,推理鏈Z在單一輸入的多樣性,也就是條件熵H(Z|X);第二部分是「異題異解」——不同輸入X之間,推理Z的分佈是否不同,也就是互信息I(X;Z)。H(Z)=H(Z|X)+I(X;Z),是資訊論發展幾十年的成果,而從未有人嘗試用其解釋LLM Agent的推理坍塌現象。

圖片

圖片由受訪者提供

然而在實驗中我們觀察到,隨著訓練的深入,到後面推理與輸入的互信息降到幾乎快沒有了。儘管我們以各種方式去提高reasoning的entropy,結果卻適得其反:模型生成的內容在不同prompt之間的區分度越來越小。

ZP:針對這種問題,你們在RAGEN V1階段做了哪些嘗試?

王子涵:我們嘗試過提示詞過濾(prompt filtering)的方式:軌跡推演(rollout)完成後,系統會檢查同一輸入下不同樣本間的獎勵是否存在不一致;如果某個prompt對應的所有獎勵都相同,我們就認為該prompt無法產生訓練訊號,類似考語文作文,寫了5篇文章都是同一個分數,沒有對比和進步的空間,就直接將其剔除。

這並非我們獨創,業界同期也產生了DAPO等類似的思路。DAPO看似很有前景,但在我們的Agent任務上卻無法生效,核心是因為其只剔除不同取樣間分數完全相同的prompt,而Agent任務獎勵系統很多時候並非二元(0/1)獎勵,獎勵系統複雜且Agent取樣有較強隨機性,我們就調整了思路。

在RAGEN V1中,我們做了一個簡單的啟發式嘗試,發現這可能與獎勵變異數(RV)相關——透過觀察獎勵變異數,來評估任務的學習價值。如果獎勵變異數越大,說明Agent當前的策略在該任務上的獎勵不穩定,我們就保留這類樣本;反之,則剔除。V1版本固定保留排名前25%或50%的高變異數樣本;V2階段進一步探究prompt不可區分的原因,發現訓練樣本的RV越低,推理過程與輸入的互信息下降越快。

ZP:那到底是什麼在影響互信息?

王子涵:我們探究後發現,影響互信息的核心是兩種雜訊。這兩種雜訊來源分別是:演算法內部為維持穩定性引入的正則項,以及rollout過程本身的環境隨機雜訊。

一是來自正則項的雜訊,在獎勵變異數(RV)極低時,優勢函數近乎為零,梯度更新主要由正則項(KL散度或熵等)主導,會把模型推到一個輸出單一穩定推理鏈的位置;二是來自隨機環境的雜訊,即便採用完全不同的推理,也有可能由於雜訊導向相同的結果,這就使得模型認為不同的推理可能有相同的收益,還不如穩定輸出一個簡單的推理,最終推理鏈千篇一律。

ZP:infra層面的bug,也在你定義的雜訊範疇內?

王子涵:去年暑假我研讀了大語言模型RL中tokenization mismatch(分詞不一致)和FP16vsBF16(訓練推理精度轉換導致的不一致)的近斯論文,發現過去的一年中RL的底層框架中存在各種各樣的infra問題,而即便是這樣依然能成功訓練,可見其訊號強度足夠強。

由於各種層面的雜訊難以完全消除,我們將策略從「消除雜訊」轉為「控制訊號」,剔除訊號弱、無學習價值的部分,最終設計出SNR-aware filtering(信噪比感知過濾)自適應訓練方案。其核心是軌跡推演中即時評估樣本信噪比,僅針對強訊號、有增量學習價值的樣本更新參數,既避免雜訊干擾,還能節省GPU資源和時間成本。具體而言,我們按獎勵變異數(RV)排序prompt,仿照Top-P演算法保留累積貢獻前列的樣本,目前該方法已在多個合成/真實、單輪/多輪、視覺/文字模態等任務上實現效能提升。

圖片

圖片由受訪者提供

相比於DAPO等方案僅能剔除「無訊號」的樣本,我們基於RL資訊論框架構建的SNR-aware filtering為工程師提供了一個旋鈕(Top-P threshold),可以針對自己的任務調整「拒絕區間」。訊號高的任務,就少拒絕一些樣本,多學點東西;訊號低的任務,就多拒絕一些樣本,確保學到了高品質內容。針對控制旋鈕本身,相比於Top-K Filtering固定選取前K個prompt的樣本,Top-P可以動態地在訓練的不同階段針對性採集訊號更高的樣本,訓練效率更高,也更能確保樣本的品質。

ZP:既然rollout佔主要的compute,那麼fliter之後還是會丟掉一些樣本,是否意味著這種計算投入被白白浪費了?

王子涵:節省計算時間並非核心價值。針對「過濾是否需更多樣本才能收斂」的疑問,我們做了對比實驗:取樣的樣本數量相同時,開啟過濾的模型表現顯著優於未開啟,證明低信噪比樣本的更新不僅無益,還會產生干擾。

當時RAGEN正在投稿NeurIPS,審稿人提出了很多質疑,再加上我在Yutori的實習Agent RL實驗進度不如預期,每天回到座位上,看到同一個實驗設定下,甚至會跑出幾條不同的、近乎隨機的結果曲線,那種深重的困惑感一度讓我非常低落。值得慶幸的是,我們最終找到了一種方式,去解釋RL訓練中的不穩定性,也找到了讓RL訓練變得更可控的方法。

ZP:總結來看,prompt呈現出低變異數(low variance)是有原因的:它可能只是碰巧有一個正確結果,也可能是任務太難導致模型始終猜不出來,還可能是任務太簡單導致模型每次都能做對。本質上,這說明這個prompt可能不適合當前階段的模型訓練,所以把它整個過濾掉是比較正確的選擇,強行透過後處理人為把它變成高變異數(high variance),是沒有實質意義的。那最後你們觀察到,對於變異數比較大的prompt,你覺得它是落在模型能力邊界(boundary)上的一些案例嗎?你怎樣定義這些案例?

王子涵:確實如此,變異數大的prompt恰好落在模型能力邊界上,模型表現時好時壞,這類樣本訓練性價比最高,但這尚未完全揭示現實學習的本質。現實中,偶爾能做對、多數時候出錯的任務最具學習價值,核心問題在於當前RL範式依賴梯度下降,導致學習過程扭曲,難以區分真正邏輯與僥倖結果。

最理想的學習狀態是任務梯度乾淨、信噪比高。我們的研究也證明,獎勵變異數越大,梯度訊號越不易被雜訊掩埋。儘管如此,我對今年RL的範式轉移充滿期待,或許大家都會回歸到提示詞(prompt)的研究上,我自己最近也非常癡迷於此,覺得這是一種返璞歸真。而且現在很多時候,做提示詞最佳化的效果,甚至比做梯度下降還要好。

ZP:那回到RL,包括Agentic RL、數學領域的RL,你覺得這條scaling路線有沒有可能暫停?現在整體還處在高速成長階段嗎?你覺得是scaling已經不夠用、需要新範式來突破,還是scaling itself is enough?

王子涵:談到scaling,我覺得關鍵是scale什麼。現在行業普遍在scale關注算力,而有些人更看重資料。之前有人問我:到底什麼才是Agent?我覺得,一個東西算不算Agent,取決於它被放在什麼樣的Physical或Digital環境裡。給它完全開放的電腦環境,它就是OpenClaw;給它受限電腦環境,它就是Claude Code或Codex;只給一個聊天介面,它就是GPT。環境的開放程度,決定了Agent從0到1的智能指數。回到你的問題:Agent RL 的 scaling law,我覺得最核心的還是——你能給它提供什麼樣的環境。

05 Agent下一階段的核心命題是資源自適應:給1萬塊做1萬的事,給100萬做100萬的事

ZP:除了擴展環境(scaling environment)之外,模型本身你覺得還有哪些地方需要改進?比如長上下文、泛化能力這類。你覺得泛化是必然會實現的,還是本質上就做不到?

王子涵:我在和GPT對話的過程中發現,它現在模仿我的速度越來越快,這說明大家都很重視記憶能力。我覺得目前真正難突破的,還是那些貼近真實人類社會決策的任務。現實中缺乏RL訓練環境和試錯機會,能收集到少量離線資料已屬不易。

當然我們也在嘗試構建環境。我們和一些研究者合作,搭建貼近真實的場景。我們正在和耶魯、MIT、NUS的團隊一起合作做O2 AI公司(o2tech.ai),開發能深度接入垂直企業環境的Agent harness,並基於此構建「資源自適應」的Agent全棧系統(Infra / Benchmark / Service / Research)。我們基於電子製造與回收供應鏈場景構建Agent,其有能力直接和企業即時資料互動、理解企業資源(如庫存、時間、資源、人力),並據此指導應該如何做企業決策,如倉庫何時滿倉、何時需要清庫存。這種基於真實業務邏輯的互動極具實用價值,我認為這是未來Agent發展繞不開的關鍵環節。

圖片

圖片由受訪者提供

Agent 在人類社會中正逐漸從「執行角色」過渡到「決策角色」,建構具備決策能力的 Agent 將變得愈發重要。為何未來一定要讓 Agent 去管理這些複雜企業事務,而非傳統模型?首先,Agent 能做出更需要複雜上下文脈絡的決策。人類在判斷決策是否合理時,不只是根據過往數據算出一個收益,還要考慮政策變化、商業合作意向等大量非結構化變量,這是傳統模型很難涵蓋的,因此必須仰賴 Agent。

現實中沒有太多試錯機會,建構沙盒環境是必然選擇。所以我們正在做資源管理型 Agent。我們的研究更聚焦於:Agent 在不同預算約束下究竟應該如何表現。很多任務的設定都是給你一筆錢,把任務做得越漂亮越好。但更重要的是:一個真正具備資源適應能力的人或 Agent,給他一萬塊能做出一萬塊的效果,給他一百萬就能做出一百萬的效果。我們希望打造的,就是這種高度自適應資源約束的 Agent。現實中每個部門的初始資金、資源都不對等,且充滿隨機約束,如何讓 Agent 在資源受限的情況下聰明地利用資源,是一個非常值得探討、但目前幾乎沒有對應 benchmark 的問題,這也就是為什麼像 O2 AI 這樣的公司,利用企業真實數據構建的環境和 Agent 系統,會更符合人類決策實際需求

一個更本質的挑戰在於,模型生成 token 本身就是一種資源消耗。現在很多代碼類 Agent,甚至只是讓它說一句「你好」,都可能消耗 10k、20k 的 token,非常不合理。針對這一點,現在很多人在研究如何優化推理開銷。

但我認為,目前研究還沒觸達更本質的命題:預算並不是花得越少越好,核心是投入產出比的高效匹配。真正的挑戰是,給你多少錢就要做出多少錢的效果。現在大多數做效率、做預算約束的工作都存在偏差——很多思路都在追求「越少越好」,而真正的方向應該是把現有資源高效轉化為目標收益,這是完全不同,也更符合真實應用場景的優化思路。

ZP:未來你會傾向於留在學術界還是工業界?兩者背後的邏輯你怎麼看?

王子涵:我不管在哪都想做研究。做研究本身很快樂,是發現新問題、定義什麼問題更重要的過程,所以無論在哪,我都會堅持做這件事。

ZP:如果讓你排序當前 LLM/Agent 領域最重要的三個問題,你會選哪些?

王子涵:第一個是資源管理。如前所述,當我們要讓 Agent 參與高影響力決策時,資源管理就是它的生存根基。在 Agent 的實際部署中,到任何一個新的環境(如企業 ERP)裡都需要學習這個環境的資源管理邏輯。

這就很自然延伸到第二個問題,就是world model(世界模型)。現在行業裡對 world model 定義很多,我們實驗室更關注 Agent 自身的世界模型,也就是它能否自主判斷做一件事會產生什麼影響。目前主流 RL 算法還很難讓 Agent 系統性地獲得這種顯性預見能力。預算本質上也是一種 world model,你必須預判一個動作會帶來多少開銷、隱性成本。

圖片

「世界模型九宮格」梗圖,王子涵製作

另一個讓我非常興奮的方向是Agent 對價值估計的深度建模。O2 AI 公司做垂類企業決策 Agent,不仅需要通用的決策管理能力,更需憑藉垂類知識精準評估電子元件殘值:同一批物料在不同市場週期、庫存狀態、拆解路径和銷售渠道下,對應的殘值完全不同。這種垂類的價值估計能力甚至可能在未來可遷移到遊戲、交易市場等場景。定價(pricing)是極佳切入點,因其可驗證——以海量交易成交價為錨點,Agent 學習預測成交價、提取判斷邏輯。雖存在市場波動帶來的噪聲,但 RL 本身就是兼顧策略學習與去噪的過程,持續學習中積累的判斷範式越多,agent 面對新場景的進化速度就越快。

ZP:這意味著要實現真正的實時競技級 AI,需要 algorithm、infra 跟整個 I/O 的 co-design?

王子涵:的確,需要全棧層面的協同,是一個非常具有普遍挑戰性的課題——這種實時應對能力是人有、但 Agent 沒有的能力。

除此之外,continue learning(持續學習)也是今年另一個至關重要的命題。我們需要思考:為什麼人學東西會越來越快,尤其是有了 AI 之後,學一個新領域也越來越快。

怎麼樣讓 Agent 擁有這種越學越快的能力?其核心在於讓 Agent 在長期處理多樣化任務的過程中,把積累的經驗內化並遷移到全新的任務中。以我自己為例,近期我在研究關於 video generation 的工作,儘管我之前只做過 video understanding 而非 generation,但學習這個新領域的速度比以前快很多。這種速度提升,本質上就是一種 continual learning 能力的體現。要讓 Agent 獲得這種能力,需要一個多樣的 test bed,讓它不停地去學。我現在的想法是,讓 Agent 真的去玩那些遊戲,如果真的存在一個 Agent 能打通世界上所有遊戲,在這個過程中,它一定學到了一些很 meta 的東西。

ZP:我剛意識到一個關鍵問題。現在最成熟的 Agent 環境,比如代碼、數學,獎勵可驗證、靠思維鏈就能閉環;遊戲類環境交互強、試錯成本低。但一旦到企業決策、預算管理這類真實場景,訓練環境極度稀缺,試錯要付出真實金錢和代價,很像機器人領域的困境——真實數據太難拿,只能靠仿真,但仿真和現實又有差距。你覺得構建更高保真的模擬器,對高風險、高成本的 Agent 任務是否有價值?

王子涵:我更偏向從算法演進來看。人類本身就具備小樣本學習能力,構建高真實度環境固然重要,但現實世界才是最完美的實驗場。而且仿真環境也不是零成本,太便宜的仿真和真實世界差距巨大,機器人領域就是典型。這倒逼我們必須解決樣本效率問題,現在的 RL 框架還有巨大提升空間。我之前用過 thinking machine API,一開始給了幾百刀額度,一輪都沒跑完額度就全用完了。RL 跑 500 步,一步就可能生成百萬 token,產生 1-2 刀的花費,成本極高。

圖片

未來一定會出現比現有 RL 高效成百上千倍的方法,讓 Agent 能持續高效學習。我們離最終的那個 Agent 相比還有很遠,現在做環境還是做算法?對於環境,其設計本質是一種權衡:低複雜度環境無法支撐 Agent 泛化到真實高成本場景,高複雜度環境需要更高的成本。因此,突破口一定在 Agent 學習速度的進化上,而核心就在於推理 —— 推理能讓它越學越快,抓住不同任務之間更本質的共性。

備註:王子涵是 Northwestern Computer Science PhD,主要研究方向為 Agent RL。他於 2024 年本科畢業於人大高瓴 AI 學院,曾參與 DeepSeek-V2 研究,並擁有微軟、NVIDIA 等研究經歷。迄今,他已發表 20 餘篇論文,相關成果發表於 ICLR、NeurIPS、EMNLP、CVPR 等會議,累計引用 1600 餘次,並獲得 ICCV 2025 SP4V Best Paper,NeurIPS 2025 LAW Outstanding Paper 等榮譽。他主導/參與開發了 RAGEN、VAGEN、MindCube 等多個 Agent 訓練評測框架,累計獲得 10k+ GitHub Stars。相關工作獲得 Stanford HAI、MIT Tech Review、Forbes、Financial Times 等關注報導。個人技術傳播帳號在 X 擁有 20K+ followers,代表性線程累計獲得 100 萬 + 閱讀。

請注意,此次訪談內容已經過精心編輯,並得到了王子涵的認可,我們也歡迎讀者通過留言互動,分享您對本訪談的看法。Z Potentials 將繼續提供更多關於人工智慧、全球化市場、機器人技術等領域的更多一線技術前沿探索者的訪談。我們誠邀對未來充滿憧憬的您加入我們的社群,與我們共同分享、學習、成長。

圖片
圖片
圖片
圖片
圖片
圖片
相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.