01 導語

很多人認識王子涵，是從Twitter上開始的。

當時隨著DeepSeek R1、V3的相繼發布，西方技術社群第一次大規模感受到這家中國公司的存在，也由此將目光投向站在第一線的研究者。這位年輕研究者的推特帳號突然湧入大量關注。他至今還記得，當時西方從業者對DeepSeek的震撼，就像目睹了一種「來自東方的神秘力量」，甚至還流傳著不少有趣的傳言，連梁老闆的照片都被傳錯，至今沒更正過來。

最初，他只是想做一件簡單的事：把真實情況講清楚：講DeepSeek是如何做研究、團隊的工作方式、以及那些被忽略的技術細節。希望盡可能在資訊失真之前，提供一個更接近第一線的視角。巧合的是，昨天準備訪談內容時，遇上了DeepSeek V4的發布，王子涵早期在DeepSeek的親身經歷，也補充了更多關於這家神秘公司的第一手資訊。

但比起這段略帶偶然的「爆紅」，更能定義王子涵的，是一條更早開始、也更穩定的技術路徑——他對Agent system的持續探索。

他進入中國人民大學開啟電腦研究的時間點，恰好在一個「前範式」階段：GPT-2已經驗證了生成式架構的潛力，但學界與業界的主流重心，仍然停留在以BERT為代表的非生成式範式之上——圍繞分類、資訊檢索、表示學習與任務拆解不斷深化。也正是從那個階段起，他沿著一條清晰卻不張揚的技術路徑持續推進：從推薦系統與資訊檢索演算法出發，延伸至Berkeley的強化學習交流計畫，以及與UIUC合作開展的MINT Agent benchmark研究；隨後進入DeepSeek，圍繞MoE模型中的專家Specialization（專業化）展開深入探索，並在此後的博士階段，將問題進一步下探至Agent強化學習的底層機制，持續追問其能力邊界與實現路徑。

與許多從大模型能力出發進入這一領域的研究者不同，他的起點更樸素：一個AI系統，是否可以像人一樣，在沒有持續外部指導的情況下，自主學習、自主改進？

在這一問題之下，他引入馬可夫決策過程MDP（Markov Decision Process）來抽象Agent的決策閉環：狀態（state）、動作（action）、轉移（transition）與回饋（reward）共同構成一個自洽的系統。但他的興趣並不止於傳統強化學習對「策略優化」的關注，而是一個更具挑戰性的主題——構建真正理解世界的Agent，在行動發生之前，就已經在內部完成了對未來的預演與模擬。

這也成為他後續所有工作的起點。作為直博二年級學生，他已在NeurIPS、ICLR、CVPR、EMNLP等AI頂級會議上發表十餘篇論文，google scholar citation 1600餘次，並包攬NeurIPS LAW outstanding paper，ICCV SP4V best paper等榮譽。無論是最早探索的Agentic scaling law，還是之後持續推進的RAGEN 1/2，VAGEN，MindCube等框架，核心都指向同一個問題：如何讓Agent的決策，從「對輸入的回應」，轉變為「基於世界演化的判斷」。

圖為RAGEN 1，受訪者提供

在這次對話中，我們試圖回到這些問題的起點：從他最早的研究經歷出發，穿過在DeepSeek的第一線實踐，再到他當下對Agent的系統性思考，去還原他個人的研究與探索是如何一步步展開的。以下為Z Potentials與王子涵的對話實錄，Enjoy！

Z Highlights：

後來慢慢發現，很多看似高深的idea可能只是包裝，甚至在複現實驗時會發現根本跑不通。我開始具備辨別能力，能看出哪些工作外表華麗、公式複雜，實則並不成立。我產生了一種逆向思考：既然有些看上去高深的領域未必如此，那一些看似比較工程化的領域，會不會反而也沒有那麼簡單，做出一篇工作也需要很多的努力？
我當時特別感慨，怎麼會有研究員密度這麼高的公司。之前待過的地方，200個人裡能有10個專職研究員就很好了，但在DeepSeek，這200人裡幾乎多多少少都在做研究相關的事。就算不是專職研究員，每天也會在群組裡分享最新的大模型進展、大廠動態，連HR都會轉發相關新聞，氛圍特別不一樣。
還有一件事讓我印象很深，當時在DeepSeek有位做infra的前輩，我第一次提交程式碼時，前輩逐行幫我修改，每一行都能找到優化空間。比如透過in-place操作避免重新克隆張量。我覺得so amazing。
之前有人問我：到底什麼才是Agent？我覺得，一個東西算不算Agent，取決於它被放在什麼樣的Physical或Digital環境裡。給它完全開放的電腦環境，它就是OpenClaw；給它受限電腦環境，它就是Claude Code或Codex；只給一個聊天介面，它就是GPT。環境的開放程度，決定了Agent從0到1的智能指數。
很多任務的設定都是給你一筆錢，把任務做得越漂亮越好。但更重要的是：一個真正具備資源適應能力的人或Agent，給他一萬塊能做出一萬塊的效果，給他一百萬就能做出一百萬的效果。我們希望打造的，就是這種高度自適應資源約束的Agent。

02 從人大IR到柏克萊RL：「沒有人脈，就從Office Hour突圍」

ZP：歡迎子涵，先從你早期的科研經歷聊起吧。在人大讀書初期，什麼樣的契機開始接觸AI領域的？當時有哪些特別的故事嗎？

王子涵：我接觸AI比較早，2020年讀大學，2021年初就開始正式做AI相關科研。這得益於人大的培養模式：大一上不分科系，所有理科生一起上課，選課自由度很高，學校也開了人工智慧、統計學這類課程。那段時間我其實更偏向統計學，當時國內也普遍認為大學應該打好數理基礎，多學數學和統計。

但我不想只走統計一條路，於是主動聯繫了人工智慧學院的老師，進入課題組做研究。那時GPT-3已經有了，但對文字生成模型的研究遠不如非生成式模型（如BERT等）多。我在組裡主要做推薦系統和搜尋演算法，用比較基礎的DPR、RAG做QA任務。坦白說那段科研很枯燥，沒有生成能力，很多事情都要靠人工精細設計。比如做QA要從原文裡抽span，做conditional QA還要抽條件特徵，把condition和answer一一對應。雖然做法很傳統、很手工，但我已經初步感受到了AI的意義——我們的AI模型在現實生活中的應用逐漸轉向自然語言，相比於隔壁做SVM的傳統結構化資料方向已經要廣得多。

ZP：剛進入AI領域，你的選題或研究方向基本上是組裡的教授安排嗎？

王子涵：我選的教授在人大AI學院口碑好，學生的去向也不錯，最初更多是憑口碑和感覺選的。方向後來也有變化，最開始做的是資訊檢索（IR）。這個計畫做完之後，萌生了出國的想法，大二申請了大三去柏克萊交換。

之後方向就換了好幾次。回頭看大學階段，最有趣的還是那段IR的科研經歷。我們有一篇投CIKM的工作，核心是：能不能用生成模型做資訊檢索？當時我們嘗試讓GPT逐個生成文件對應的token，每個文件對應一串token，做推薦或搜尋時就讓模型生成這串token，匹配到哪個文件就返回哪個。這裡面的困難點有點類似早期GPT的幻覺——讓它引用文獻，它會編出不存在的條目。為了解決這個問題，我們提出了約束解碼的方法，給模型限定一個文件庫，強制它只能在庫內的token序列中解碼，確保生成結果精準指向庫內文章。

ZP：在整個海外學術交流的過程中，你收穫了什麼？

王子涵：柏克萊的經歷讓我變得非常獨立。我認識的學長裡只有一個去過柏克萊，還是數學方向，和我完全不相關，沒有任何經驗可以參考。剛去時人生地不熟，甚至不覺得自己能找到教授做科研。

沒有現成人脈，我就從上課找突破口。選課可以利用老師的office hour直接交流，也有機會跟著學習。我當時選了Sergey Levine的強化學習課，每次下課都主動去問問題。課程大作業讓我印象很深，那時開始用OpenAI Gym，我覺得RL特別有意思，這也是後來我兜兜轉轉還是回到RL的原因。在我看來，RL和SFT的區別在於，它讓模型具備自我進化的可能，就像AlphaGo到AlphaZero那樣。課程大作業允許自主選題，我關注到OpenAI的VPT（Video Pre-training）工作，讓模型透過觀看影片學習動態模型，像人看遊戲實況學操作一樣。我在一個簡化的2D類Minecraft環境裡實現了一個低配版，效果還不錯，那堂課也拿到了滿分。

當時還處在探索階段，對這份滿分作業挺滿意的。但我也意識到不能只停留在課程層面，我看到有同學把課程作業改成論文並成功投稿，覺得很受啟發。

我跟Sergey提出想做科研，他把我推薦給一位學長，但聊下來發現方向興趣不太匹配。此後也嘗試接觸了一些其他組，柏克萊校內和校外的都有，有一些也認真做了一段時間，但有很長一段時間都沒有真正做出來收尾的項目。

一開始我覺得科研是很神聖的事，要鑽研宏大概念或高深想法。但後來慢慢發現，很多看似高深的idea可能只是包裝，甚至在複現實驗時會發現根本跑不通。我開始具備辨別能力，能看出哪些工作外表華麗、公式複雜，實則並不成立。我對科研也不再像大一大二那樣抱有仰望心態，更多以觀察者的視角去看待別人的工作。

這種心態一直持續到申請暑期研究。我產生了一種逆向思考：既然有些看上去高深的領域未必如此，那一些看似比較工程化的領域，會不會反而也沒有那麼簡單，做出一篇工作也需要很多的努力？

那時我找到了UIUC的教授季姮和Mentor星堯，他現在在All-Hands AI做Coding Agents創業。我們當時聊要不要一起做一個benchmark。很多人覺得benchmark簡單、不夠「性感」，但經過之前的思考，我意識到看似簡單的事情背後也需要極強的嚴謹性，比如搭建分類體系、定義能力維度、編寫大量嚴謹的test case。我那時才明白，做benchmark本身也不是一件容易的事。

我是2023年3月找到他的，當時他就提議，我們可以一起做Agent benchmark。

ZP：那個時候，關於Agent大家理解是什麼樣子？

王子涵：2022年底ChatGPT出現，很多人第一次意識到AI可以流暢對話，但很少有人進一步去想：AI除了聊天，是否能主動操控現實世界中的工具？它自己生成的token，能不能轉化為真實行動，並在執行後讀取環境回饋？當時大家的思考慣性非常強，之前做QA還普遍在用BERT抽特徵，從這種慣性裡跳出來，其實是一件很有挑戰的事。

我們剛開始籌劃做Agent benchmark時，正好Meta在2023年2月發表了Toolformer，算是當時最先進的Agent相關工作之一。它定義了月曆、計算器等5個工具，讓Agent完成簡單數學題之類的測試，雖然提出了基本的tool use思路，但並沒有形成一套系統化的benchmark。

於是我們就在思考：既然大家都看到了Agent的潛力，下一步該怎麼做？我們意識到，Agent在與世界互動的過程中，有兩類核心資源至關重要：一類是工具（tools），另一類是人類。

當時ChatGPT也在推進工具能力，我們便設想了一種工具+人類回饋的Agent架構，和後來的TauBench思路比較接近：讓Agent能夠呼叫一系列工具，並結合人類回饋持續優化決策。這兩類回饋的本質截然不同：

來自工具的回饋是可驗證的客觀事實，比如查詢、計算結果，Agent應該直接當作真實依據使用；
來自人類的回饋則較嘈雜，比如用戶會指責、表達不清，甚至需要Agent反問才能明確意圖。

圖為MINT benchmark框架，受訪者提供

基於此，我們構建了一個融合tools + Agent + simulated user的基準測試。這項工作在暑期研究結束後完成，大概2023年9月左右發布。從那之後，我就開始系統地深入研究Agent相關方向。

ZP：當時的能力做Agent還是過於困難，模型的tool calling能力比較弱，也沒有像樣的推理，所以包括多Agent這類框架基本都很難落地。

王子涵：尤其當時沒什麼合適的任務能給Agent用，整體能力還支撐不了複雜場景。最後能做的基本上也就是RAG和程式碼相關，讓模型自己寫程式碼、過驗證器，再根據回傳結果迭代。現在看，純文字Agent最主流的場景也還是這兩類：搜尋Agent和程式碼Agent。

ZP：從2024年到現在，你觀察到benchmark已經趨於飽和了嗎？

王子涵：那個階段其實條件很有限，當時連GPQA這種研究生等級的問答基準都還沒有，主要用的還是HotpotQA、TheoremQA，以及程式碼類的HumanEval和MBPP。以現在的眼光看，當年這些資料集上的任務，如今的Agent基本上都已經做得比較成熟了。這兩年多時間，變化確實非常大。

03 王子涵親歷：200人的DeepSeek，程式碼一行一行改，HR都在分享模型進展細節

ZP：在這之後你大三結束進入DeepSeek，對你來說是一個怎樣的開始？是什麼樣的故事讓你進入DeepSeek？

王子涵：從UIUC暑期研究回來後，我就開始申請PhD。很幸運，我拿到了UIUC學姐曼玲在西北大學課題組的錄取通知，之前和她聊過，彼此方向、風格都很合得來，之後就正式申請並確定了去向。

敲定PhD之後，我有一個類似gap的學期，那段時間心態很輕鬆，方向已經定了，不用再背負各種不確定性，於是就開心地投了履歷。

當時我只投了兩家公司：一家是DeepSeek，另一家是新創公司，兩邊都給了錄取，最後我選擇了DeepSeek。過程其實挺順利的，我也沒廣發履歷，就想著隨緣試試，沒中就大四下半學期好好玩、放鬆一下，不過最後面試一路比較順利。

DeepSeek給我的感覺很不一樣，他們不是在考八股面試，而是結合我的研究經歷和公司的技術方向，問非常針對性的問題，後來我發現DeepSeek很多同事都是這種風格。這家公司會高度客製化面試，說明他們對每位求職者都很用心，至少會提前看你的履歷、你的研究、你在做什麼。這種感覺和我當時PhD面試很像：他們關心的是你這個人，希望你進來之後能落地一個具體的科研項目，而不是隨便安排雜活、做完了事。正是這一點打動了我，於是我就加入了。

ZP：在那個階段，DeepSeek還是一個不那麼封閉的地方。現在基本上都不太招收短期的intern。當時人多嗎？規模如何？

王子涵：當時公司大概就200人。我當時特別感慨，怎麼會有研究員密度這麼高的公司。

之前待過的地方，200個人裡能有10個專職研究員就很好了，但在DeepSeek，這200人裡幾乎多多少少都在做研究相關的事。就算不是專職研究員，每天也會在群組裡分享最新的大模型進展、大廠動態，連HR都會轉發相關新聞，氛圍特別不一樣。

ZP：你在DeepSeek裡面主要是做了什麼？有做自己的research，還是說主要是參與主流model的training和inference？

王子涵：都有做，主要是兩項工作，一個是V2的開發，另外一個是expert specialization tuning。

V2屬於新模型研發，公司員工都參與其中，大家當時也日常使用這個模型。我會重點觀察模型的輸出邏輯與流暢度，若出現問題，會進行歸因並提出反饋。這部分工作更偏向工程方向，當時我更多是抱著學習的心態，畢竟公司裡前輩眾多，強者如雲，學到就是賺到。

從V1到V2的迭代，是一個多想法碰撞的過程。外界看到的核心成果可能只有MLA架構和更精細的專家切分，但內部實際涉及架構優化、訓練後調優、資料收集等多個環節。每天都能接觸到各類創新思路，這是很好的學習機會。透過與同事交流模型設計邏輯，我也累積了大量模型研發直覺，比如關注哪些指標、特定程式碼對模型效能的潛在影響等。

還有一件事讓我印象很深，當時有位做infra的前輩，我第一次提交程式碼時，前輩逐行幫我修改，每一行都能找到優化空間。比如透過in-place操作避免重新克隆張量。我覺得so amazing。

我自己負責的項目更具探索性。當時公司正逐步遷移到MoE（混合專家模型），核心需求是解決MoE模型的專業化微調問題。當時業界與微調相關的工作，基本上都採用LoRA及其變種，核心是透過矩陣分解壓縮參數，無需調整全部參數。這種方式雖能實現目標，但應用在MoE模型上時，我們發現了可優化空間。

MoE模型本身自帶顯性的專家結構，而LoRA之所以只需少量參數，核心是透過少量參數撬動模型中與任務相關的局部參數，本質也是在尋找對任務有效的參數分解。而MoE的專家結構，恰好提供了這種顯性分解。我們在前期先導研究中發現，DeepSeek堅持的細粒度MoE，其專家分化程度遠優於當時市面上部分論文中採用的「八選一」專家結構——不同任務所激活的專家完全不同。當時，我產生了一個想法：既然微調的核心是更新參數係數，那能否直接定位到與任務最相關的專家，對其進行針對性微調？這一思路最終形成了我們的ESFT論文（發表在EMNLP 2024）。

其實當時我是圍繞需求找解決方案，那時候就深刻體會到，只要有明確的需求，基於需求撰寫論文會非常高效。之後我所有寫得快的論文，都是遵循這個邏輯——發現一個未被關注的核心需求，然後針對性地落地解決方案，這和單純花費大量時間打磨細節、雕琢形式的體驗完全不同。

從這項工作本身來看，透過針對性微調相關專家實現參數更新，有兩個核心優勢。一是能節省顯存資源，二是能降低MoE模型中不相關專家的噪音，提升訓練的信噪比。如果強行讓不相關的專家去擬合當前任務，會導致模型在其他任務上的效能出現斷崖式下跌。而我們的方法，能在微調新任務的同時，讓模型在原有任務上的效能幾乎沒有下降，核心就是沒有干擾到不相關的專家，也避免了模型過度擬合到單一任務。

ZP：所以MoE是DeepSeek很早以前定下來的方向，他們是怎麼樣定出來的？畢竟當時除了MoE的混合專家架構，千問、GLM、Llama等早期模型都是稠密模型，只有GPT-4採用了MoE架構，DeepSeek為什麼能早早判斷出MoE是未來的發展方向？

王子涵：我認為核心是「實驗出真知」，DeepSeek內部的實驗做得極其嚴謹。我在那裡學到一個重要理念：僅僅自己相信某個方向是不夠的，還要為相反的觀點留出充分的辯論和驗證空間。哪怕團隊主觀上已經非常認可某個結論，還是會做大量消融實驗，假設反方觀點成立，去驗證其可行性、尋找潛在問題。

我自己做ESFT（專家專業化微調）相關論文時，就深刻體會到了這一點。哪怕我已經非常確定自己的方法是可行的，我的Mentor還是會不斷追問我：如果這個方法不可行，問題會出在哪裡？之後我做了大量消融實驗，反覆驗證、確認方法的有效性後，才最終將其整理成論文發表。我們做核心實驗的時間其實只有一個月，但做消融實驗、嚴謹打磨論文的時間要長得多。

DeepSeek就是這樣，對待每一個技術方向都極其嚴謹，會全面測試各種元件和特性，只有經過反覆驗證、確認切實可行，才會確定其方向。我覺得正是這種嚴謹的實驗態度，讓他們早早判斷出MoE是未來的核心方向。

ZP：在我的印象裡，DeepSeek也是比較早提出細粒度MoE（fine-grained MoE）理念的，稀疏比達到1:32，比八選一、四選一的架構更加稀疏。這種設計可能屬於不同的MoE架構思路，也可能是工程驅動下的選擇。V2專案之後，你相關的MoE研究成果，最終有應用到模型的最終方案裡嗎？還是說目前仍停留在研究階段？

王子涵：這就不得不提到訓練後調優（post-training）的相關工作了，其實這裡面涉及兩個方向。第一個方向類似現在的Thinking Machine Labs，核心是基於大模型，為客戶定製小型模型，以API的方式定製做訓練優化和部署服務。當時OpenAI、字節跳動等公司都已經上線了類似的微調功能——他們提供模型基座，用戶無需了解底層架構，只需基於基座進行訓練，就能得到客製化模型。但等到DeepSeek V3推出時，公司的優先級更側重在提升模型能力方面，所以客製化方向的商業化這件事的優先級就被調低了。

圖片由受訪者提供

第二個方向更具探索性，核心不是讓下游用戶去定製、訓練模型——雖然我們已經實現了微調新任務時不影響原有任務效能這一優勢，但我們想進一步探索：能否將不同任務根據其性質，分配到不同的任務組，每個任務組內部的任務需要的能力較為相近，而針對每一類任務組，只微調其最偏好的專家。這樣一來，在訓練任何一個任務時，都能減緩「翹翹板效應」——比如訓練任務a時，導致任務b的效能下降，進而需要反覆訓練所有任務。當時這個思路已經明確，但因為我在西北大學已經開學了，無法在DeepSeek繼續進行全職工作，就沒能繼續推進這項研究。

ZP：你有沒有想過延後入學半年，繼續留在公司工作？比如等到V3專案結束。

王子涵：當時我確實考慮過留下或離開這兩種選擇。之所以最終選擇去美國讀博，很大一個原因是，美國曼玲老師課題組的研究方向，是我當時在國內完全接觸不到的，包括VLA、機器人技術以及各類多模態相關內容。

我當時覺得多模態領域非常有吸引力，因為在國內，我能接觸到的課題組裡，很少有專注於多模態研究的。這其實是一個方向上的選擇，我本身就很喜歡探索新領域——大學期間因為各種原因，我也換過很多研究方向，中間還做過LLM人格個性化相關的工作，雖然最終沒有產出論文，但那段探索經歷也讓我收穫很多。所以當時選擇讀博，核心還是出於對研究方向的考量。

ZP：沒有記錯的話，還有一個小插曲——R1和V3推出後，你在推特上受到了很高的關注。那段時間具體是什麼情況？

王子涵：那段時間最深的體會是，西方業界人士了解到DeepSeek後，產生了很強的震撼感，我很難用恰當的語言形容，大概就像他們目睹了一種來自東方的神秘力量。當時還出現了很多我從未聽過的傳言，甚至到現在，還有不少人在推特上發布的梁老闆照片都是錯的，一直沒有更正。

當時我有很多想分享的內容，比如想跟大家真實展現DeepSeek的工作狀態，以及我感受到的公司情懷和核心價值。一開始還想著幫公司宣傳一下，因為我加入時，公司的推特粉絲大概只有1萬左右，但後來公司的影響力逐漸提升，完全不需要我再做宣傳了。

其實我很小的時候就喜歡在B站發影片，當我對一件事有強烈表達慾時，往往能激發很多靈感，包括一些想法和有趣的梗——這些梗既能讓自己樂，也能讓別人會心一笑，笑過之後還能引發對相關問題的思考。那段時間在推特上，我聊得最多的是開源相關的話題，雖然現在行業整體還是逐漸走向封閉原始碼，但當時能為開源做一點小小的抗爭，那種感覺還是很有意義的。

ZP：DeepSeek給我的一個印象是，它在infra層面的能力很強，也比較強調infra與algorithm之間的協同。他們在寫paper的時候，也會比較細緻地展開算子和排程這些實現層面的內容。在這樣的環境裡，你有沒有受到一些影響？

王子涵：最典型的例子就是我剛才提到的，我第一次提交程式碼時，我的導師逐行幫我修改，每一行都能找到優化空間。其實對比當時市面上其他MoE模型，哪怕是DeepSeek開源的V2版本程式碼，其推理部分也只比其他的模型有10到20行程式碼的改動，但這每一行都是精心設計的。即便不了解公司內部情況，單看開源版本，其品質也非常出色，計算效率遠高於當時市面上的其他模型。

這其中就涉及到infra層面的細節優化，比如計算圖如何計算梯度、梯度如何回傳、怎樣實現最佳通訊、如何透過減少張量建立來節省資源等。我覺得這種文化最核心的是一種資源預算意識——在資源有限的情況下，如何做出最佳決策。其實我加入時，公司的資源是很充足的，200人配備1萬張顯示卡，這是我大學時完全無法想像的，但後來也意識到，要訓練一個超級大模型，1萬張顯示卡依然顯得不足，這也更凸顯了infra最佳化、資源高效率利用的重要性。

ZP：非常巧合的是，我們稿件發布的前一天，DeepSeek發布了V4，你怎麼看這次的新發布？

王子涵：我對模型和技術路線等沒有什麼特別想說的，我覺得他們一直都走在正確的道路上。但我非常喜歡V4發布公告裡的一句話：「不誘於譽，不恐於誹，率道而行，端然正己。」對任何一個研究者而言，堅持做自己覺得正確的事，保持前進的步伐平穩，踏實地去驗證每一個假設，讓外界噪音的影響下降到最小。這個方向，就是前進最快的方向！

04 Agent System：環境開放程度決定智能上限，而非算力或資料規模

ZP：你從很早以前就開始想做Agent system，最開始加入西北大學讀PhD做的project，你想解決什麼問題，進展怎麼樣？

王子涵：我做Agent相關項目的核心初心，是希望Agent能自主學習、無需人刻意教導。這受我成長經歷影響，父母一直引導我自主學習，也讓我更傾向於RL思路，我始終認為最終型態的RL會相對現有「生成體驗+梯度下降 (experience + gradient descent)」模式的型態有較大改變，核心是讓模型實現自主提升，也就是後來大家說的 self-evolving 。

我做的第一個相關研究是Agent縮放定律（Agentic scaling law），當時我們將Agent抽象為包含狀態（state）和動作（action）的馬可夫決策過程（MDP）。核心思路是，判斷Agent是否理解世界，不能只看策略（給定狀態s輸出動作a），而要能對MDP任意環節「完形填空」，挖掘其世界建模能力——比如透過動作預測下一狀態、透過狀態與後續狀態反推動作，這也是我們實驗室目前推進工作的核心邏輯，比如VAGEN(Vision Agent, NeurIPS 2025) 本質就是這種完形填空思路的落地。

起初我嘗試設計統一的完形填空框架但未成功，後來調整思路，決定循序漸進先做好策略。讀博後，我發現Verl框架可應用於Agent構建，便做了簡單的概念驗證（PoC），由此誕生了RAGEN。第一版RAGEN未做過多工程最佳化，效率不及同期的SGlang，我也意識到工程最佳化的重要性，後續首要任務便是攻克這一難點。

RAGEN初版於去年1月27日發布，巧合的是，今年1月27日的RAGEN一週年紀念日，也是DeepMind的AlphaGo論文發布10週年。在過去的一年裡，我經歷了多次研究失敗，也總結出了新的研究論點，目前正基於這套論點重新定位，開展新的探索，初代RAGEN也是我剛到西北大學第一個學期的核心工作。

圖片由受訪者提供

ZP：RAGEN的第二代主要是關注推理失敗案例，以及強化學習失敗模式（RL failure mode）相關的問題，它也從一個偏向infra定義的研究，轉變為一篇基於觀察的論文。在這篇論文中，你們主要的觀察結果是什麼？你覺得有哪些方法可以改善這種觀察？

王子涵：我們梳理了去年W&B上記錄的幾千個實驗，發現強化學習的不同領域中，多輪Agent強化學習（multi-turn Agentic RL）領域推進難度遠大於推理領域。

在數學、程式碼等推理領域，模型reasoning長度會隨訓練增加，直觀體現模型逐步學會深入思考；但在多輪Agent RL領域，我們測試20多個任務後，始終無法複現這一現象，反而模型推理長度持續下降。我們認為，長度只是表象，我們更需要深入理解這個長度背後，真正反映的模型推理能力和決策邏輯是什麼。

ZP：導致這種現象的原因，是不是與你所定義的環境有關？你所在的框架或所在定義的環境是軟體工程/程式碼（SWE），還是類似小遊戲（Gym）？

王子涵：我們的實驗環境更偏向分佈外（OOD）場景，也就是Agent不熟悉的場景。程式碼或者數學等任務一般在模型的預訓練/後訓練階段都進行大量的訓練，做Agent RL時推理長度下降現象更緩和，但這類規整任務僅佔Agent實際應用場景的一部分。除此之外還有大量Agent實際使用場景，比如GUI Agent（即網頁點擊）、遊戲（如Sokoban）等任務，這些都是Agent不熟悉的任務。

更具挑戰性的是，訓練無法窮盡所有基準測試，測試時必然出現OOD任務。我們實驗室在SPA這篇paper中，採取狀態困惑度（State Perplexity）作為OOD環境的檢測指標，發現推箱子任務困惑度接近200多，遠高於WebShop、數學、程式碼等任務。

圖片由受訪者提供

我們的目標是將Agent部署到現實中，而現實中OOD場景最易出問題，需重點加強理解；且「推理長度下降」並非僅存在於OOD任務，分佈內任務中，也可能因Agent推理雜訊，導致任務偶然答對後推理鏈縮短。

ZP：這種「偶然答對後推理鏈變短」的現象，在不同類型任務中表現是否一致？

王子涵：差異非常明顯。程式設計、數學任務有極強因果鏈，「過程對則結果對」；但推箱子、WebShop等Agent任務，可能步驟錯誤仍能完成任務，且這類任務狀態轉移多帶隨機性。我曾在Yutori實習接觸GUI Agent業務，發現長程多模態Agent訓練難度大，比如讓Agent透過點擊網頁來訂機票仍是未完全攻克的難題。我們觀察到，模型效能提升的同時，推理卻愈發脆弱，後續抽象出「模板坍縮」現象——模型傾向於輸出不隨prompt變化的「套話」。

那「套話」到底該如何定義？本質上，它指的是不隨題目變化而變化的推理鏈——無論輸入什麼prompt，模型都傾向於重複相同的表述。意識到這一點後，我開始尋找理論框架來解釋這種現象。於是我回歸資訊論的底層，去研讀早期的論文，最終意識到：對於輸入X和推理Z，推理的總多樣性H(Z)，由兩部分組成。第一部分是「同題多解」——給定輸入X之後，推理鏈Z在單一輸入的多樣性，也就是條件熵H(Z|X)；第二部分是「異題異解」——不同輸入X之間，推理Z的分佈是否不同，也就是互信息I(X;Z)。H(Z)=H(Z|X)+I(X;Z)，是資訊論發展幾十年的成果，而從未有人嘗試用其解釋LLM Agent的推理坍塌現象。

圖片由受訪者提供

然而在實驗中我們觀察到，隨著訓練的深入，到後面推理與輸入的互信息降到幾乎快沒有了。儘管我們以各種方式去提高reasoning的entropy，結果卻適得其反：模型生成的內容在不同prompt之間的區分度越來越小。

ZP：針對這種問題，你們在RAGEN V1階段做了哪些嘗試？

王子涵：我們嘗試過提示詞過濾（prompt filtering）的方式：軌跡推演（rollout）完成後，系統會檢查同一輸入下不同樣本間的獎勵是否存在不一致；如果某個prompt對應的所有獎勵都相同，我們就認為該prompt無法產生訓練訊號，類似考語文作文，寫了5篇文章都是同一個分數，沒有對比和進步的空間，就直接將其剔除。

這並非我們獨創，業界同期也產生了DAPO等類似的思路。DAPO看似很有前景，但在我們的Agent任務上卻無法生效，核心是因為其只剔除不同取樣間分數完全相同的prompt，而Agent任務獎勵系統很多時候並非二元（0/1）獎勵，獎勵系統複雜且Agent取樣有較強隨機性，我們就調整了思路。

在RAGEN V1中，我們做了一個簡單的啟發式嘗試，發現這可能與獎勵變異數（RV）相關——透過觀察獎勵變異數，來評估任務的學習價值。如果獎勵變異數越大，說明Agent當前的策略在該任務上的獎勵不穩定，我們就保留這類樣本；反之，則剔除。V1版本固定保留排名前25%或50%的高變異數樣本；V2階段進一步探究prompt不可區分的原因，發現訓練樣本的RV越低，推理過程與輸入的互信息下降越快。

ZP：那到底是什麼在影響互信息？

王子涵：我們探究後發現，影響互信息的核心是兩種雜訊。這兩種雜訊來源分別是：演算法內部為維持穩定性引入的正則項，以及rollout過程本身的環境隨機雜訊。

一是來自正則項的雜訊，在獎勵變異數（RV）極低時，優勢函數近乎為零，梯度更新主要由正則項（KL散度或熵等）主導，會把模型推到一個輸出單一穩定推理鏈的位置；二是來自隨機環境的雜訊，即便採用完全不同的推理，也有可能由於雜訊導向相同的結果，這就使得模型認為不同的推理可能有相同的收益，還不如穩定輸出一個簡單的推理，最終推理鏈千篇一律。

ZP：infra層面的bug，也在你定義的雜訊範疇內？

王子涵：去年暑假我研讀了大語言模型RL中tokenization mismatch（分詞不一致）和FP16vsBF16（訓練推理精度轉換導致的不一致）的近斯論文，發現過去的一年中RL的底層框架中存在各種各樣的infra問題，而即便是這樣依然能成功訓練，可見其訊號強度足夠強。

由於各種層面的雜訊難以完全消除，我們將策略從「消除雜訊」轉為「控制訊號」，剔除訊號弱、無學習價值的部分，最終設計出SNR-aware filtering（信噪比感知過濾）自適應訓練方案。其核心是軌跡推演中即時評估樣本信噪比，僅針對強訊號、有增量學習價值的樣本更新參數，既避免雜訊干擾，還能節省GPU資源和時間成本。具體而言，我們按獎勵變異數（RV）排序prompt，仿照Top-P演算法保留累積貢獻前列的樣本，目前該方法已在多個合成/真實、單輪/多輪、視覺/文字模態等任務上實現效能提升。

圖片由受訪者提供

相比於DAPO等方案僅能剔除「無訊號」的樣本，我們基於RL資訊論框架構建的SNR-aware filtering為工程師提供了一個旋鈕（Top-P threshold），可以針對自己的任務調整「拒絕區間」。訊號高的任務，就少拒絕一些樣本，多學點東西；訊號低的任務，就多拒絕一些樣本，確保學到了高品質內容。針對控制旋鈕本身，相比於Top-K Filtering固定選取前K個prompt的樣本，Top-P可以動態地在訓練的不同階段針對性採集訊號更高的樣本，訓練效率更高，也更能確保樣本的品質。

ZP：既然rollout佔主要的compute，那麼fliter之後還是會丟掉一些樣本，是否意味著這種計算投入被白白浪費了？

王子涵：節省計算時間並非核心價值。針對「過濾是否需更多樣本才能收斂」的疑問，我們做了對比實驗：取樣的樣本數量相同時，開啟過濾的模型表現顯著優於未開啟，證明低信噪比樣本的更新不僅無益，還會產生干擾。

當時RAGEN正在投稿NeurIPS，審稿人提出了很多質疑，再加上我在Yutori的實習Agent RL實驗進度不如預期，每天回到座位上，看到同一個實驗設定下，甚至會跑出幾條不同的、近乎隨機的結果曲線，那種深重的困惑感一度讓我非常低落。值得慶幸的是，我們最終找到了一種方式，去解釋RL訓練中的不穩定性，也找到了讓RL訓練變得更可控的方法。

ZP：總結來看，prompt呈現出低變異數（low variance）是有原因的：它可能只是碰巧有一個正確結果，也可能是任務太難導致模型始終猜不出來，還可能是任務太簡單導致模型每次都能做對。本質上，這說明這個prompt可能不適合當前階段的模型訓練，所以把它整個過濾掉是比較正確的選擇，強行透過後處理人為把它變成高變異數（high variance），是沒有實質意義的。那最後你們觀察到，對於變異數比較大的prompt，你覺得它是落在模型能力邊界（boundary）上的一些案例嗎？你怎樣定義這些案例？

王子涵：確實如此，變異數大的prompt恰好落在模型能力邊界上，模型表現時好時壞，這類樣本訓練性價比最高，但這尚未完全揭示現實學習的本質。現實中，偶爾能做對、多數時候出錯的任務最具學習價值，核心問題在於當前RL範式依賴梯度下降，導致學習過程扭曲，難以區分真正邏輯與僥倖結果。

最理想的學習狀態是任務梯度乾淨、信噪比高。我們的研究也證明，獎勵變異數越大，梯度訊號越不易被雜訊掩埋。儘管如此，我對今年RL的範式轉移充滿期待，或許大家都會回歸到提示詞（prompt）的研究上，我自己最近也非常癡迷於此，覺得這是一種返璞歸真。而且現在很多時候，做提示詞最佳化的效果，甚至比做梯度下降還要好。

ZP：那回到RL，包括Agentic RL、數學領域的RL，你覺得這條scaling路線有沒有可能暫停？現在整體還處在高速成長階段嗎？你覺得是scaling已經不夠用、需要新範式來突破，還是scaling itself is enough？

王子涵：談到scaling，我覺得關鍵是scale什麼。現在行業普遍在scale關注算力，而有些人更看重資料。之前有人問我：到底什麼才是Agent？我覺得，一個東西算不算Agent，取決於它被放在什麼樣的Physical或Digital環境裡。給它完全開放的電腦環境，它就是OpenClaw；給它受限電腦環境，它就是Claude Code或Codex；只給一個聊天介面，它就是GPT。環境的開放程度，決定了Agent從0到1的智能指數。回到你的問題：Agent RL 的 scaling law，我覺得最核心的還是——你能給它提供什麼樣的環境。

05 Agent下一階段的核心命題是資源自適應：給1萬塊做1萬的事，給100萬做100萬的事

ZP：除了擴展環境（scaling environment）之外，模型本身你覺得還有哪些地方需要改進？比如長上下文、泛化能力這類。你覺得泛化是必然會實現的，還是本質上就做不到？

王子涵：我在和GPT對話的過程中發現，它現在模仿我的速度越來越快，這說明大家都很重視記憶能力。我覺得目前真正難突破的，還是那些貼近真實人類社會決策的任務。現實中缺乏RL訓練環境和試錯機會，能收集到少量離線資料已屬不易。

當然我們也在嘗試構建環境。我們和一些研究者合作，搭建貼近真實的場景。我們正在和耶魯、MIT、NUS的團隊一起合作做O2 AI公司(o2tech.ai)，開發能深度接入垂直企業環境的Agent harness，並基於此構建「資源自適應」的Agent全棧系統（Infra / Benchmark / Service / Research）。我們基於電子製造與回收供應鏈場景構建Agent，其有能力直接和企業即時資料互動、理解企業資源（如庫存、時間、資源、人力），並據此指導應該如何做企業決策，如倉庫何時滿倉、何時需要清庫存。這種基於真實業務邏輯的互動極具實用價值，我認為這是未來Agent發展繞不開的關鍵環節。

圖片由受訪者提供

Agent 在人類社會中正逐漸從「執行角色」過渡到「決策角色」，建構具備決策能力的 Agent 將變得愈發重要。為何未來一定要讓 Agent 去管理這些複雜企業事務，而非傳統模型？首先，Agent 能做出更需要複雜上下文脈絡的決策。人類在判斷決策是否合理時，不只是根據過往數據算出一個收益，還要考慮政策變化、商業合作意向等大量非結構化變量，這是傳統模型很難涵蓋的，因此必須仰賴 Agent。

現實中沒有太多試錯機會，建構沙盒環境是必然選擇。所以我們正在做資源管理型 Agent。我們的研究更聚焦於：Agent 在不同預算約束下究竟應該如何表現。很多任務的設定都是給你一筆錢，把任務做得越漂亮越好。但更重要的是：一個真正具備資源適應能力的人或 Agent，給他一萬塊能做出一萬塊的效果，給他一百萬就能做出一百萬的效果。我們希望打造的，就是這種高度自適應資源約束的 Agent。現實中每個部門的初始資金、資源都不對等，且充滿隨機約束，如何讓 Agent 在資源受限的情況下聰明地利用資源，是一個非常值得探討、但目前幾乎沒有對應 benchmark 的問題，這也就是為什麼像 O2 AI 這樣的公司，利用企業真實數據構建的環境和 Agent 系統，會更符合人類決策實際需求。

一個更本質的挑戰在於，模型生成 token 本身就是一種資源消耗。現在很多代碼類 Agent，甚至只是讓它說一句「你好」，都可能消耗 10k、20k 的 token，非常不合理。針對這一點，現在很多人在研究如何優化推理開銷。

但我認為，目前研究還沒觸達更本質的命題：預算並不是花得越少越好，核心是投入產出比的高效匹配。真正的挑戰是，給你多少錢就要做出多少錢的效果。現在大多數做效率、做預算約束的工作都存在偏差——很多思路都在追求「越少越好」，而真正的方向應該是把現有資源高效轉化為目標收益，這是完全不同，也更符合真實應用場景的優化思路。

ZP：未來你會傾向於留在學術界還是工業界？兩者背後的邏輯你怎麼看？

王子涵：我不管在哪都想做研究。做研究本身很快樂，是發現新問題、定義什麼問題更重要的過程，所以無論在哪，我都會堅持做這件事。

ZP：如果讓你排序當前 LLM/Agent 領域最重要的三個問題，你會選哪些？

王子涵：第一個是資源管理。如前所述，當我們要讓 Agent 參與高影響力決策時，資源管理就是它的生存根基。在 Agent 的實際部署中，到任何一個新的環境（如企業 ERP）裡都需要學習這個環境的資源管理邏輯。

這就很自然延伸到第二個問題，就是world model（世界模型）。現在行業裡對 world model 定義很多，我們實驗室更關注 Agent 自身的世界模型，也就是它能否自主判斷做一件事會產生什麼影響。目前主流 RL 算法還很難讓 Agent 系統性地獲得這種顯性預見能力。預算本質上也是一種 world model，你必須預判一個動作會帶來多少開銷、隱性成本。

「世界模型九宮格」梗圖，王子涵製作

另一個讓我非常興奮的方向是Agent 對價值估計的深度建模。O2 AI 公司做垂類企業決策 Agent，不仅需要通用的決策管理能力，更需憑藉垂類知識精準評估電子元件殘值：同一批物料在不同市場週期、庫存狀態、拆解路径和銷售渠道下，對應的殘值完全不同。這種垂類的價值估計能力甚至可能在未來可遷移到遊戲、交易市場等場景。定價（pricing）是極佳切入點，因其可驗證——以海量交易成交價為錨點，Agent 學習預測成交價、提取判斷邏輯。雖存在市場波動帶來的噪聲，但 RL 本身就是兼顧策略學習與去噪的過程，持續學習中積累的判斷範式越多，agent 面對新場景的進化速度就越快。

ZP：這意味著要實現真正的實時競技級 AI，需要 algorithm、infra 跟整個 I/O 的 co-design？

王子涵：的確，需要全棧層面的協同，是一個非常具有普遍挑戰性的課題——這種實時應對能力是人有、但 Agent 沒有的能力。

除此之外，continue learning（持續學習）也是今年另一個至關重要的命題。我們需要思考：為什麼人學東西會越來越快，尤其是有了 AI 之後，學一個新領域也越來越快。

怎麼樣讓 Agent 擁有這種越學越快的能力？其核心在於讓 Agent 在長期處理多樣化任務的過程中，把積累的經驗內化並遷移到全新的任務中。以我自己為例，近期我在研究關於 video generation 的工作，儘管我之前只做過 video understanding 而非 generation，但學習這個新領域的速度比以前快很多。這種速度提升，本質上就是一種 continual learning 能力的體現。要讓 Agent 獲得這種能力，需要一個多樣的 test bed，讓它不停地去學。我現在的想法是，讓 Agent 真的去玩那些遊戲，如果真的存在一個 Agent 能打通世界上所有遊戲，在這個過程中，它一定學到了一些很 meta 的東西。

ZP：我剛意識到一個關鍵問題。現在最成熟的 Agent 環境，比如代碼、數學，獎勵可驗證、靠思維鏈就能閉環；遊戲類環境交互強、試錯成本低。但一旦到企業決策、預算管理這類真實場景，訓練環境極度稀缺，試錯要付出真實金錢和代價，很像機器人領域的困境——真實數據太難拿，只能靠仿真，但仿真和現實又有差距。你覺得構建更高保真的模擬器，對高風險、高成本的 Agent 任務是否有價值？

王子涵：我更偏向從算法演進來看。人類本身就具備小樣本學習能力，構建高真實度環境固然重要，但現實世界才是最完美的實驗場。而且仿真環境也不是零成本，太便宜的仿真和真實世界差距巨大，機器人領域就是典型。這倒逼我們必須解決樣本效率問題，現在的 RL 框架還有巨大提升空間。我之前用過 thinking machine API，一開始給了幾百刀額度，一輪都沒跑完額度就全用完了。RL 跑 500 步，一步就可能生成百萬 token，產生 1-2 刀的花費，成本極高。

未來一定會出現比現有 RL 高效成百上千倍的方法，讓 Agent 能持續高效學習。我們離最終的那個 Agent 相比還有很遠，現在做環境還是做算法？對於環境，其設計本質是一種權衡：低複雜度環境無法支撐 Agent 泛化到真實高成本場景，高複雜度環境需要更高的成本。因此，突破口一定在 Agent 學習速度的進化上，而核心就在於推理 —— 推理能讓它越學越快，抓住不同任務之間更本質的共性。

備註：王子涵是 Northwestern Computer Science PhD，主要研究方向為 Agent RL。他於 2024 年本科畢業於人大高瓴 AI 學院，曾參與 DeepSeek-V2 研究，並擁有微軟、NVIDIA 等研究經歷。迄今，他已發表 20 餘篇論文，相關成果發表於 ICLR、NeurIPS、EMNLP、CVPR 等會議，累計引用 1600 餘次，並獲得 ICCV 2025 SP4V Best Paper，NeurIPS 2025 LAW Outstanding Paper 等榮譽。他主導/參與開發了 RAGEN、VAGEN、MindCube 等多個 Agent 訓練評測框架，累計獲得 10k+ GitHub Stars。相關工作獲得 Stanford HAI、MIT Tech Review、Forbes、Financial Times 等關注報導。個人技術傳播帳號在 X 擁有 20K+ followers，代表性線程累計獲得 100 萬 + 閱讀。

請注意，此次訪談內容已經過精心編輯，並得到了王子涵的認可，我們也歡迎讀者通過留言互動，分享您對本訪談的看法。Z Potentials 將繼續提供更多關於人工智慧、全球化市場、機器人技術等領域的更多一線技術前沿探索者的訪談。我們誠邀對未來充滿憧憬的您加入我們的社群，與我們共同分享、學習、成長。

Z Tech｜對話王子涵：離開DeepSeek，我人生的逆向思考

01 導語

02 從人大IR到柏克萊RL：「沒有人脈，就從Office Hour突圍」

03 王子涵親歷：200人的DeepSeek，程式碼一行一行改，HR都在分享模型進展細節

04 Agent System：環境開放程度決定智能上限，而非算力或資料規模

05 Agent下一階段的核心命題是資源自適應：給1萬塊做1萬的事，給100萬做100萬的事

相關文章推薦

分享網址