01 はじめに

王子涵（ワン・ツーハン）氏の名を多くの人が知ったのは、Twitter 上での出来事がきっかけでした。

当時、DeepSeek R1 や V3 の相次ぐリリースに伴い、西洋の技術コミュニティは初めて、この中国企業の存在を本格的に意識し、最前線で研究を率いる若き研究者へと視線を向けました。彼の Twitter アカウントには瞬く間に大量のフォロワーが殺到しました。彼は今でも、当時の西洋の専門家たちが DeepSeek に受けた衝撃を、「東洋から来た謎の力」を目撃したかのようなものだったと振り返ります。さらに、代表の梁文鋒氏の写真すら誤って広まるなど、興味深い噂も絶えませんでしたが、その誤りは今日まで訂正されていません。

当初、彼がただ一つだけ成し遂げようとしたのは、シンプルなことでした。実情を明確に伝えること。DeepSeek がどのように研究を行い、チームがどのような働き方をしているのか、そして見過ごされがちな技術的詳細について、情報が歪められる前に、できるだけ最前線に近い視点を提供したいと考えたのです。偶然にも、インタビューの準備をしていた昨日、DeepSeek V4 がリリースされました。王子涵氏の DeepSeek 初期における実体験は、この謎めいた企業に関する一次情報をさらに補完するものとなりました。

しかし、このやや偶発的な「注目の集まり」以上に、王子涵氏を定義づけるのは、より早くから始まり、かつ安定的な技術的軌跡、すなわちエージェントシステム（Agent system）の継続的な探求にあります。

彼が中国人民大学でコンピュータサイエンスの研究を始めた時期は、まさに「パラダイム過渡期」に位置していました。GPT-2 によって生成型アーキテクチャの可能性は実証されていましたが、学界や産業界の主流の関心は依然として、BERT に代表される非生成型パラダイム、つまり分類、情報検索、表現学習、タスクの分解深化に留まっていました。その段階から、彼は明確でありながら目立たない技術的軌道を突き進みました。推薦システムや情報検索アルゴリズムから始まり、バークリー校での強化学習（RL）の交流プロジェクト、イリノイ大学（UIUC）との共同による MINT Agent ベンチマーク研究へと発展。その後 DeepSeek に入社し、MoE（Mixture of Experts）モデルにおける専門家の特殊化（Specialization）を深く探求しました。そして博士課程では、問題をさらに掘り下げ、エージェント強化学習の基盤メカニズムにまで到達し、その能力の限界と実現経路を問い続けています。

大規模モデルの能力からこの分野に入った多くの研究者とは異なり、彼の出発点はより根源的なものでした。AI システムは、絶え間ない外部からの指導がなくても、人間のように自律的に学習し、自己改善できるだろうか？という問いです。

この問いのもと、彼はエージェントの意思決定ループを抽象化するためにマルコフ決定過程（MDP）を導入しました。状態（state）、行動（action）、遷移（transition）、報酬（reward）が一体となった自律的なシステムです。しかし、彼の関心は「方策の最適化」に注力する従来の強化学習には留まりません。より挑戦的なテーマ、すなわち世界を真に理解するエージェントの構築、つまり行動が発生する前に、その内部で未来の予行とシミュレーションを完了させることにあります。

これが、その後の彼の全ての研究の出発点となりました。博士課程 2 年生にして、すでに NeurIPS、ICLR、CVPR、EMNLP などの AI 頂カンファレンスで 10 本以上の論文を発表し、Google Scholar での被引用数は 1600 回を超え、NeurIPS LAW Outstanding Paper や ICCV SP4V Best Paper などの栄誉に輝いています。初期に探求した Agentic scaling law に続き、その後も RAGEN 1/2、VAGEN、MindCube といったフレームワークを精力的に推進していますが、その核心はすべて同一の問題に向かっています。いかにしてエージェントの意思決定を、「入力への反応」から「世界の変遷に基づく判断」へと転換させるか、ということです。

図：RAGEN 1（被インタビュー者提供）

今回の対談では、私たちはこれらの問いの原点に立ち戻ります。初期の研究経験から、DeepSeek での最前線の実践、そして現在のエージェントシステムに関する体系的な考察まで、彼個人の研究と探求がどのように展開してきたのかを紐解いていきます。以下、Z Potentials と王子涵氏による対談の全文です。お楽しみください。

Z Highlights：

後に気づいたのですが、多くの深遠に見えるアイデアは単なる見せかけであり、実際に実験を再現しようとすると全く動かないことさえあります。私はどの研究が見た目は豪華で数式も複雑だが、実際には成立しないかを見極める力を身につけました。そこで逆転の発想が生まれました。一見深遠な分野がそうではないなら、逆に工学的に見える分野もまた単純ではなく、一つの成果を出すために多くの努力が必要なのではないか？
当時、これほど研究者の密度が高い企業があるのかと感嘆しました。以前いた場所では、200 人のうち 10 人の専任研究者がいれば良い方でしたが、DeepSeek では 200 人のほぼ全員が何らかの研究に関わっていました。専任の研究者でなくても、毎日グループチャットで最新のLLM（大規模言語モデル）の進捗や大手企業の動向を共有し、人事担当者（HR）でさえ関連ニュースを転送するほどで、雰囲気は全く異なっていました。
印象深かった出来事がもう一つあります。DeepSeek にいた時、インフラ（infra）担当の先輩に初めてコードを提出した際、その方が一行一行修正してくれました。どの行にも最適化の余地があったのです。例えば、テンソルの再クローンを避けるための in-place 操作などです。「なんて素晴らしいんだ」と思いました。
以前、「一体何がエージェントなのか」と聞かれたことがあります。私の考えでは、何かがエージェントかどうかは、それが置かれる物理的、あるいはデジタルな環境によります。完全に開かれたコンピュータ環境を与えれば OpenClaw となり、制限された環境なら Claude Code や Codex、チャットインターフェースだけなら GPT となります。環境の開放度が、エージェントの 0 から 1 への知能指数を決定するのです。
多くのタスク設定は、「資金を与え、いかに美しくタスクを完了させるか」というものです。しかし、さらに重要なのは、真にリソース適応能力を持つ人間やエージェントは、1 万円を与えられれば 1 万円分の成果を出し、100 万円を与えられれば 100 万円分の成果を出せるということです。私たちが目指しているのは、リソースの制約に高度に適応するエージェントです。

02 人大 IR からバークリー RL へ：「人脈がなければ、オフィスアワーで突破口を開く」

ZP：子涵さん、ようこそ。まずは初期の研究経験からお話しください。人大（中国人民大学）での学生時代、どのようなきっかけで AI 分野に触れたのでしょうか？当時の特別なエピソードなどはありますか？

王子涵：AI には比較的早くから触れていました。2020 年に学士課程に入学し、2021 年初頭には本格的に AI 関連の科研を始めました。これは人大の育成モデル 덕分です。1 年次前期は専攻分けがなく、理系学生は皆一緒に受講し、履修の自由度が非常に高く、学校も人工知能や統計学といった科目を開講していました。その頃は統計学に傾倒しており、国内でも一般的に、学部生は数理基盤を固めるべきで、数学や統計を多く学ぶべきだと考えられていました。

しかし、統計学一本の道を進むつもりはありませんでした。そこで自ら人工知能学院の教員に連絡を取り、研究室に加わって研究を開始しました。当時は GPT-3 が既に存在していましたが、テキスト生成モデルの研究は、BERT などの非生成型モデルほど多くはありませんでした。実験室内では主に推薦システムや検索アルゴリズムを担当し、基礎的な DPR や RAG を用いて QA タスクに取り組んでいました。正直なところ、当時の科研は退屈なものでした。生成能力がなく、多くのことを人手による緻密な設計に頼る必要があったのです。例えば QA では原文からスパンを抽出し、条件付き QA では条件特徴を抽出して、条件と答えを一対一で対応させる必要がありました。手法は非常に伝統的で手工業的でしたが、AI の意義を直感的に感じ取った時期でもありました。私たちの AI モデルは実社会での応用が自然言語へと移行しつつあり、隣接する SVM を用いた従来の構造化データ処理の方向性よりも、はるかに広がりを感じたのです。

ZP：AI 分野に参入した当初、トピックや研究方向は研究室の指導教員によって割り振られたものだったのでしょうか？

王子涵：指導教員は人大 AI 学院での評判が良く、卒業生の進路も良かったため、最初は評判と直感で選びました。方向性はその後も何度か変化しました。最初は情報検索（IR）でした。このプロジェクトが一段落した頃、海外留学の考えが芽生え、2 年生の時に 3 年生をバークリー校で交換留学するために出願しました。

その後、方向転換を何度か繰り返しました。振り返ってみると、学部時代で最も興味深かったのは、やはりあの IR の科研経験でした。CIKM に採択された論文があり、その中核は「生成モデルで情報検索は可能か？」という問いでした。当時、GPT にドキュメントごとのトークンを逐次生成させ、各ドキュメントを一連のトークンに対応させ、推薦や検索時にモデルにそのトークン列を生成させ、一致したドキュメントを返すという試みを行いました。ここでの課題は、初期の GPT の幻覚（ハルシネーション）に似ていました。文献を引用させると、存在しない項目をでっち上げてしまうのです。この問題を解決するため、私たちは制約付きデコード（constrained decoding）という手法を提案しました。モデルにドキュメントライブラリを限定し、ライブラリ内のトークン列の中でのみデコードを強制することで、生成結果がライブラリ内の記事に正確に指向されるようにしました。

ZP：海外での学術交流全体を通じて、どのような收获がありましたか？

王子涵：バークリーでの経験は、私を非常に独立させました。知人の先輩でバークリーに行ったのは数学専攻の一人だけで、私とは全く関係なく、参考になる経験もありませんでした。着任したばかりの頃は土地勘もなく、教授を見つけて科研ができるとは思っていませんでした。

既存の人脈がなければ、授業から突破口を開くしかありません。履修を通じて教員のオフィスアワーを利用して直接対話し、学ぶ機会を得るのです。私はセルゲイ・レヴィーン氏の強化学習の講座を履修し、毎回の講義後には積極的に質問に行きました。コースの最終課題が特に印象に残っています。その頃から OpenAI Gym を使い始め、RL が非常に面白いと感じました。これが後に私が回り道しながらも RL に戻る理由となりました。私の見解では、RL と SFT（Supervised Fine-Tuning）の違いは、モデルに自己進化の可能性を与える点にあります。AlphaGo から AlphaZero への変遷のようにです。最終課題は自由なトピックが許されており、私は OpenAI の VPT（Video Pre-training）という研究に注目しました。これはモデルに動画を見せることで動的モデルを学習させ、人間がゲームの実況を見て操作を覚めるのと同じようにさせるものです。私はこれを簡略化した 2D の Minecraft 風環境で実装し、低予算版ながらまずまずの成果を上げ、その授業では満点を獲得しました。

当時はまだ模索の段階で、この満点の課題には満足していました。しかし、授業のレベルに留まるわけにはいかないと気づき、授業の課題を論文に改変して採択された同級生を見て、大いに刺激を受けました。

セルゲイ氏に科研を行いたいと申し出ると、ある先輩を紹介してくれましたが、話をしていく中で方向性や興味のミスマッチに気づきました。その後も学内外のいくつかのグループと接触を試み、一部は真剣に取り組んだ期間もありましたが、長期間にわたり実際に完了まで漕ぎ着けたプロジェクトはありませんでした。

当初、科研とは神聖なもので、壮大な概念や深遠なアイデアを追求するものだと考えていました。しかし後に、多くの深遠に見えるアイデアは単なる見せかけであり、実際に実験を再現しようとすると全く動かないことさえあると気づきました。どの研究が見た目は豪華で数式も複雑だが、実際には成立しないかを見極める力を身につけたのです。科研に対する見方も、1 年生や 2 年生の頃のような畏敬の念を抱くものではなくなり、より観察者の視点で他者の仕事を見るようになりました。

この心境はサマーリサーチの応募まで続いていました。そこで逆転の発想が生まれました。一見深遠な分野がそうではないなら、逆に工学的に見える分野もまた単純ではなく、一つの成果を出すために多くの努力が必要なのではないか？

その頃、UIUC の季姮（ジー・ホン）准教授と、現在 All-Hands AI で Coding Agents 起業を手掛けるメンターの星堯（シン・ヤオ）氏に出会いました。ベンチマークを一緒に作らないかと相談したところ、多くの人はベンチマークを簡単で「セクシー」ではないと考えていましたが、これまでの考察を経て、一見単純なことの後にも極めて厳密な作業が必要だと認識するようになりました。分類体系の構築、能力次元の定義、多数の厳密なテストケースの作成などです。その時初めて、ベンチマークを作ること自体が容易ではないと悟りました。

彼に接触した 2023 年 3 月、彼はエージェントのベンチマークを一緒に作ろうと提案してくれました。

ZP：その当時、エージェントといえばどのような理解が一般的でしたか？

王子涵：2022 年末に ChatGPT が登場し、多くの人が初めて AI と円滑な対話ができると認識しましたが、AI は会話だけでなく、現実世界のツールを能動的に操作できるのか、さらに自分が生成したトークンを実際の行動に変換し、実行後に環境からのフィードバックを読み取れるのか、と深く考える人は稀でした。当時の思考の慣性は非常に強く、それまで QA では BERT で特徴を抽出するのが一般的でしたが、その慣性から抜け出すことは大きな挑戦でした。

エージェントのベンチマーク構築を計画し始めた頃、メタ社が 2023 年 2 月に Toolformer を発表しました。これは当時の最先端のエージェント関連研究の一つです。カレンダーや計算機など 5 つのツールを定義し、エージェントに簡単な計算問題などを解かせるといったもので、基本的なツール活用の考え方は示していましたが、体系的なベンチマークにはなっていませんでした。

そこで私たちは考えました。誰もがエージェントの可能性に気づいた以上、次の一手はどうあるべきか。エージェントが世界と相互作用する過程で、二つの核となるリソースが極めて重要だと気づきました。一つはツール（tools）、もう一つは人間です。

当時 ChatGPT もツール機能の強化を進めていましたが、私たちはツール＋人間のフィードバックというエージェント構造を想定しました。これは後年の TauBench の考え方に近いものです。エージェントが一連のツールを呼び出せるようにし、人間のフィードバックを組み合わせることで意思決定を継続的に最適化させます。この二つのフィードバックの本質は全く異なります。

ツールからのフィードバックは検証可能な客観的事実です。例えば照会や計算結果などで、エージェントはこれを真実の根拠としてそのまま利用すべきものです。
一方、人間からのフィードバックはよりノイズが多く、ユーザーが非難してきたり、表現が不明瞭だったり、あるいはエージェントが逆に問い返して初めて意図が明確になることもあります。

図：MINT ベンチマークフレームワーク（被インタビュー者提供）

これを基に、ツール＋エージェント＋シミュレートされたユーザーを融合したベンチマークを構築しました。この研究はサマーリサーチ終了後に完了し、2023 年 9 月頃に公開しました。その後、私は体系的にエージェント関連の方向性を深く研究するようになりました。

ZP：当時の能力でエージェントを行うのはあまりに困難でした。モデルのツール呼び出し能力は弱く、まともな推論もできず、マルチエージェントのようなフレームワークは実装が困難でした。

王子涵：特に当時、エージェントに与える適切なタスクがほとんどなく、全体的な能力が複雑なシナリオを支えられていませんでした。最終的に可能だったのは RAG とコード関連、つまりモデルに自らコードを書かせ、バリデーターに通し、その結果に基づいて反復させることくらいでした。現在振り返ると、純粋なテキストベースのエージェントの主流シナリオも、この検索エージェントとコードエージェントの二つに留まっています。

ZP：2024 年から現在に至るまで、ベンチマークは飽和状態になったとお考えですか？

王子涵：あの段階では条件が非常に限られていました。当時は GPQA のような大学院生レベルの質問ベンチマークすら存在せず、主に使われていたのは HotpotQA、TheoremQA、そしてコード系の HumanEval や MBPP でした。現在の視点で見れば、当時これらのデータセット上のタスクは、現在のエージェントであればほぼ成熟して対応できるレベルです。この 2 年余りでの変化は、本当に巨大なものでした。

03 王子涵氏が見た DeepSeek の実態：200 名規模でコードは一行一行修正、人事すらがモデルの進捗を共有

ZP：その後、3 年生修了後に DeepSeek に入社されましたが、あなたにとってどのような始まりだったのでしょうか？どのような経緯で DeepSeek に入社されたのですか？

王子涵：UIUC でのサマーリサーチから戻った後、博士課程の申請を開始しました。幸運なことに、以前から方向性やスタイルが合い、話も弾んでいた UIUC の先輩である曼玲（マン・リン）氏のノースウェスタン大での研究室からのオファーをいただき、正式に申請して進路を確定させました。

博士課程への道が決まると、いわゆるギャップイヤーのような学期が訪れました。その頃の心境は非常にリラックスしており、方向性は決まり、不確実性に悩まされる必要もなかったため、楽しく履歴書を送りました。

当時応募したのは 2 社のみ。DeepSeek ともう一社はスタートアップ企業で、双方からオファーをいただきました。最終的に DeepSeek を選びました。過程は非常にスムーズで、乱れ撃ちもせず、縁があればという気持ちで試しただけでした。ダメなら 4 年次後期はしっかり遊んでリラックスしようとさえ思っていましたが、結果として面接は順調に進みました。

DeepSeek は他社とは全く異なっていました。決まりきった知識を問う面接ではなく、私の研究経験と自社の技術的指向を組み合わせ、非常に的を射た質問を投げかけてきたのです。後に DeepSeek の同僚の多くがこのスタイルだと知りました。この企業は候補者ごとに高度にカスタマイズされた面接を行います。これは、各候補者に心を砕き、少なくとも事前に履歴書や研究内容、何をしているかをチェックしていることを意味します。この感覚は、当時の博士課程の面接に似ていました。彼らが関心を持っていたのは「私」という人間そのものであり、入社後に具体的な科研プロジェクトを着地させてほしいという思いでした。適当な雑用を押し付け、終わらせれば良いというのではありません。まさにこの一点に心を動かされ、入社を決意しました。

ZP：その当時、DeepSeek はまだ閉鎖的ではない場所でした。現在では短期のインターン募集もほぼありませんが、当時は人員はどの程度でしたか？規模感は？

王子涵：当時の社員数は約 200 名でした。私はその時、これほど研究者の密度が高い企業があるのかと心底感嘆しました。

以前いた場所では、200 名中に専任の研究者が 10 名いれば良い方でしたが、DeepSeek では 200 名のほぼ全員が多かれ少なかれ研究に関わっていました。専任の研究者でなくても、毎日グループチャットで最新の LLM（大規模言語モデル）の進捗や大手企業の動向を共有し、人事担当者（HR）でさえ関連ニュースを転送するほどで、雰囲気は全く異なっていました。

ZP：DeepSeek 内では主にどのような業務に携わっていたのですか？独自の研究を行っていたのか、それとも主流モデルのトレーニングや推論への参加が主でしたか？

王子涵：その両方を行いました。主に二つの業務、一つはV2 の開発、もう一つは専門家の特殊化チューニング（expert specialization tuning）です。

V2 は新モデルの研究開発であり、社員全員が関与し、日常的にこのモデルを使用していました。私は主にモデルの出力ロジックと流暢さを観察し、問題があれば原因究明とフィードバックを行いました。この部分はよりエンジニアリング寄りで、当時は学習のつもりで取り組んでいました。社内には先輩方が多く、強者ひしめく環境でしたから、学べること全てが財産でした。

V1 から V2 への反復は、多様なアイデアが衝突する過程でした。外部から見える中核的成果は MLA アーキテクチャとより精緻な専門家の分割くらいですが、内部ではアーキテクチャの最適化、トレーニング後の調整、データ収集など多岐にわたる工程を網羅していました。毎日様々な革新的な発想に触れられるのは、非常に良い学習機会でした。同僚とモデル設計のロジックを議論する中で、どの指標に注目すべきか、特定のコードがモデル性能に与える潜在的影響など、モデル開発の直感を大量に蓄積しました。

印象深かった出来事がもう一つあります。インフラ（infra）担当の先輩に初めてコードを提出した際、その方が一行一行修正してくれました。どの行にも最適化の余地があったのです。例えば、テンソルの再クローンを避けるための in-place 操作などです。「なんて素晴らしいんだ」と思いました。

私が担当したプロジェクトはより探求的なものでした。当時、企業は徐々に MoE（Mixture of Experts：混合専門家モデル）へ移行しており、中核的なニーズは MoE モデルの専門的微調整（ファインチューニング）問題の解決でした。当時の業界における微調整関連の研究は、基本的に LoRA とその派生が主流で、行列分解によるパラメータ圧縮が中核であり、全パラメータの調整を不要としていました。この方式でも目的は達成できますが、MoE モデルに適用した際、最適化の余地があることに気づきました。

MoE モデルは本来的に明示的な専門家構造を持っています。一方、LoRA が少数のパラメータで済むのは、少数のパラメータでタスクに関連する局所的なパラメータを動かし、本質的にタスクに有効なパラメータ分解を探している点にあります。MoE の専門家構造は、まさにこの明示的分解を提供するものでした。前期のパイロット研究で、DeepSeek が堅持する細粒度 MoE における専門家の分化度は、当時の論文で一部採用されていた「8 択 1」などの専門家構造よりも遥かに優れていることが判明しました。異なるタスクで活性化される専門家が全く異なっていたのです。そこで、微調整の核心がパラメータ係数の更新にあるなら、タスクに最も関連する専門家を直接特定し、そこを集中的に微調整することは可能か？という発想が浮かびました。この思考は最終的に私たちの ESFT 論文（EMNLP 2024 発表）へと結実しました。

実際、当時はニーズに基づいて解決策を探しており、その際、明確なニーズがあれば、それに基づいて論文を書くことがいかに効率的かを痛感しました。その後、執筆が速かった論文はすべてこのロジックに従っています。注目されていない中核的なニーズを発見し、それに対して解決策を着地させる。これは、単に大量の時間を費やして細部を磨き上げ、形式を彫琢するのとは全く異なる体験です。

この作業そのものを見ても、関連する専門家を選択的に微調整してパラメータを更新することには、二つの中核的利点があります。第一に GPU メモリリソースを節約できること。第二に、MoE モデル内での無関係な専門家のノイズを低減し、トレーニングの S/N 比を向上できることです。強制的に無関係な専門家に現在のタスクをフィットさせようとすると、モデルの他タスクでの性能が断崖的に低下します。私たちの方法なら、新しいタスクを微調整する際、モデルの既存タスク性能をほぼ低下させることなく、無関係な専門家を干渉させず、単一タスクへの過学習も回避できます。

ZP：つまりMoEは DeepSeek がかなり以前に定めた方向性だったわけですが、どのようにして決定されたのでしょうか？当時、MoE 混合専門家アーキテクチャの他、千問（Qwen）、GLM、Llama などの初期モデルは密なモデル（Dense Model）が主流で、GPT-4のみが MoE アーキテクチャを採用していましたが、DeepSeek はなぜこれほど早期に MoE が将来の方向性だと見極めることができたのですか？

王子涵：核心は「実験が真を知る」だと考えます。DeepSeek 内部の実験は極めて厳密に行われています。そこで学んだ重要な理念があります。ある方向を自ら信じるだけでは不十分で、反対の意見のためにも十分な議論と検証の余地を残さねばならないということです。チームが主観的にある結論を非常に確信していたとしても、大量のアブレーション実験を行い、反証の視点が成立すると仮定して、その妥当性を検証し、潜在的な問題点を探します。

私が ESFT（専門家の特殊化微調整）関連の論文を作成した際も、これを痛感しました。自分の手法が有効だと確信していても、メンターは執拗に問い詰めてきました。「もしこの手法が有効でなかったら、問題はどこに出るのか？」と。その後、大量のアブレーション実験を行い、繰り返し検証して手法の有効性を確認してから、ようやく論文としてまとめ上げました。中核実験自体は 1 ヶ月程度で完了しましたが、アブレーション実験を行い、厳密に論文を練り上げる時間の方が遥かに長かったのです。

DeepSeek とはそういう企業で、あらゆる技術的指向に対して極めて厳格です。あらゆるコンポーネントや特性を包括的にテストし、反復して検証し、実行可能だと確認されて初めて方向性を決定します。この厳格な実験的態度こそが、彼らを早期に MoE が将来の中核的方向性だと見極めさせたのだと思います。

ZP：私の記憶では、DeepSeek は細粒度 MoE（fine-grained MoE）の理念を比較的早期に提唱した企業でもあります。スパース比は 1:32 に達し、8 択 1 や 4 択 1 のアーキテクチャよりもはるかにスパースです。この設計は異なる MoE アーキテクチャの思考によるものか、あるいはエンジニアリング駆動による選択かもしれません。V2 プロジェクト後、あなたの関連する MoE 研究成果は、最終的にモデルの最終案に適用されたのですか？それとも研究段階に留まっているのですか？

王子涵：ここで触れなければならないのが、トレーニング後の調整（ポストトレーニング）に関する仕事です。ここには二つの方向性が含まれます。一つは現在の Thinking Machine Labs に近く、大規模モデルを基盤とし、顧客向けに小型モデルをカスタマイズし、API 経由でトレーニング最適化とデプロイサービスを提供するというものです。当時、OpenAI や字节（バイトダンス）などの企業は既に同様の微調整機能をリリースしていました。モデル基盤を提供し、ユーザーは基盤構造を理解せずとも、基盤上でトレーニングを行うだけでカスタマイズモデルが得られるというものです。しかし、DeepSeek V3 がリリースされる頃には、企業の優先順位がモデル能力の向上に置かれていたため、カスタマイズ方向の商業化は優先度が下げられました。

画像提供：被インタビュー者

二つ目の方向性はより探求的なもので、下流ユーザーにモデルのカスタマイズやトレーニングを行わせるのではなく（既に新タスクの微調整時に既存タスク性能を損なわないという優位性は実現済みですが）、さらに一歩進んで探求しようというものです。タスクをその性質に基づき異なるタスクグループに割り振り、各グループ内のタスクは必要な能力が近似しているとし、各タスクグループに対して最も好適な専門家のみを微調整することは可能か、という点です。こうすれば、どのタスクをトレーニングする際も「シーソー効果（タスク A をトレーニングするとタスク B の性能が低下し、全タスクの再トレーニングが必要になる現象）」を緩和できます。当時この思考は明確になっていましたが、私がノースウェスタン大学で新学期を迎えることになり、DeepSeek でのフルタイム勤務が継続できなくなったため、この研究を推進することは叶いませんでした。

ZP：入学を半年遅らせ、企業に残ることは考えませんでしたか？例えば V3 プロジェクトが終了するまでなど。

王子涵：当時、残留か離脱かの選択は確かに考えました。最終的に米国での博士課程進学を選んだ大きな理由は、米国の曼玲先生の研究室での研究方向、すなわち VLA（Vision-Language-Action）、ロボット技術、および各種マルチモーダル関連の内容が、当時の中国国内では全く触れられなかった分野だったからです。

当時、マルチモーダル分野が非常に魅力的に思えました。中国国内で触れられた研究室のどこを探しても、マルチモーダル研究に特化したところは稀だったからです。これは方向性の選択でもありました。私自身、新しい分野の探求が大好きで、学部時代も様々な理由で研究方向を何度も変え、LLM の人格パーソナライズ関連の研究も行っていましたが、最終的に論文にはなりませんでした。しかし、その探求経験も多くの收获をもたらしてくれました。博士課程進学を選択した核心は、やはり研究方向への考量によるものでした。

ZP：記憶違いでなければ、もう一つエピソードがありましたね。R1 と V3 リリース後、あなたは Twitter で非常に注目を集めました。あの時期の具体的状況はどうでしたか？

王子涵：あの時期の最大の感触は、西洋の業界関係者が DeepSeek を知った際の衝撃の大きさでした。適切な表現が難しいのですが、彼らが「東洋から来た謎の力」を目撃したかのような感じでした。当時、私が一度も耳にしたことのない噂が数多く飛び交い、現在に至るまで Twitter 上で梁氏の間違った写真が投稿され続け、訂正されないままです。

当時、共有したいことが山ほどありました。DeepSeek の実務状態や、私が感じた企業文化、中核的価値をありのままに見せたいと思っていました。当初は企業の宣伝になればとも思っていました。入社時の Twitter フォロワー数は約 1 万でしたが、後に企業の影響力が向上し、もはや私のような宣伝は不要になりました。

実は幼い頃から B 站（ビリビリ動画）で動画を投稿するのが好きでした。ある事柄に対して強烈な表現欲求に駆られると、多くのインスピレーションが湧いてきます。アイデアや面白いジョークなど、自分が楽しめ、他人にもニヤリとさせ、笑った後にその問題について考えさせるようなものです。あの時期の Twitter では、主にオープンソース関連のトピックについて語りました。業界全体が徐々にクローズドソースへ向かう中、当時、オープンソースのためにささやかな抵抗ができたという感覚は、非常に意義深いものでした。

ZP：DeepSeek の印象として、インフラ（infra）面での能力が高く、インフラとアルゴリズムの連携を重視している点が挙げられます。論文執筆時にも、演算子やスケジューリングといった実装レベルの内容を詳細に展開しています。そのような環境下で、何か影響はありましたか？

王子涵：最も顕著な例が、先ほど申し上げた、初めてコードを提出した際、メンターが一行一行修正してくれたことです。当時の市場に出回っていた他の MoE モデルと比較しても、DeepSeek がオープンソースした V2 バージョンのコードでさえ、推論部分は他モデルと比べて 10〜20 行程度の変更しかしていませんが、その 1 行 1 行が丁寧に設計されたものです。社内事情を知らなくとも、オープンソース版を見るだけで、その品質の卓越性は明白で、計算効率は当時の他のどのモデルよりも遥かに高かったのです。

ここにはインフラレベルの詳細な最適化が関わっています。計算グラフがどのように勾配を計算するか、勾配がどのように逆伝播するか、いかにして最適な通信を実現するか、テンソルの生成を減らしていかにリソースを節約するかなどです。この文化の核心は、リソース予算の意識、つまり限られたリソース下でいかに最適の意思決定を行うかという点にあると感じています。実際、私が加入した当時、企業のリソースは非常に豊富で、200 名に対して GPU が 1 万枚も配備されていました。これは学部時代には想像もできなかったことです。しかし後に、スーパー大規模モデルを 1 本トレーニングするには 1 万枚でも不足することに気づき、インフラの最適化とリソースの効率的利用の重要性がより浮き彫りになりました。

ZP：非常に偶然ですが、私どもの原稿公開の前日、DeepSeek は V4 をリリースしました。今回の新リリースについてはどのようにお考えですか？

王子涵：モデルや技術ルートについて特に語りたいことはありません。彼らは常に正しい道を歩んでいると感じています。しかし、V4 のリリースアナウンスにある一言が非常に気に入っています。「誉れに誘われず、誹りを恐れず、道に率いて行じ、端然として己を正す」です。どの研究者にとっても、自らが正しいと信じることを堅持し、前進の歩みを安定させ、一つ一つの仮説を着実に検証し、外部のノイズの影響を最小限に抑えること。この方向こそが、最も速く前進できる道なのです。

04 エージェントシステム：知能の上限を決めるのは算力やデータ規模ではなく、環境の開放度である

ZP：あなたはずっと以前からエージェントシステムに取り組みたいと考えていました。ノースウェスタン大で博士課程に進み、最初に着手したプロジェクトで解決しようとした問題は何でしたか？また、進捗はいかがでしょうか？

王子涵：エージェント関連プロジェクトに取り組む中核的な動機は、エージェントが自律的に学習し、人間による意図的な指導を不要にすることです。これは私の成育歴の影響も受けています。両親に常に自律学習を促されて育ったこともあり、RL（強化学習）の思考により傾倒しています。最終形態の RL は、現在の「生成体験＋勾配降下法（experience + gradient descent）」モードから大きく変化し、モデルに自己向上、つまり後に人々が言うself-evolving（自己進化）を実現させるものだと信じています。

最初に取り組んだ関連研究はエージェントのスケーリング則（Agentic scaling law）です。当時、私たちはエージェントを状態（state）と行動（action）を含むマルコフ決定過程（MDP）として抽象化しました。中核的な考え方は、エージェントが世界を理解しているかどうかは、方策（状態 s が与えられた際の行動 a の出力）だけを見るのではなく、MDP の任意の要素に対して「空欄補充（クロージング）」が可能か、つまりその世界モデル能力を掘り下げられるかで判断すべきだということです。例えば、行動から次の状態を予測したり、状態と次状態から行動を逆算したりすることです。これも現在の実験室が推進する業務の中核ロジックです。例えば VAGEN（Vision Agent, NeurIPS 2025）は本質的にこの空欄補充アプローチの実装です。

当初は統一された空欄補充フレームワークの設計を試みましたが成功せず、思考を転換し、段階的に進めてまずは方策を確立することにしました。博士課程進学後、Verl フレームワークがエージェント構築に適用可能だと知り、シンプルな概念実証（PoC）を行い、RAGEN が誕生しました。初期の RAGEN はエンジニアリング最適化が十分でなく、効率も同時期の SGlang には及びません。そこでエンジニアリング最適化の重要性を認識し、その後、この難関の攻略を最優先課題としました。

RAGEN の初版は昨年 1 月 27 日にリリースされました。偶然にも、今年 1 月 27 日の RAGEN リリース 1 周年は、DeepMind の AlphaGo 論文発表から 10 周年でもありました。この 1 年間、私は幾度も研究の失敗を経験し、新たな研究論点をまとめ上げました。現在、この論点に基づいて再定位を行い、新たな探求を開始しているところです。初代 RAGEN は、私がノースウェスタン大に到着して最初の学期の中核業務でした。

画像提供：被インタビュー者

ZP：RAGEN の第 2 世代は主に推論の失敗事例、および強化学習の失敗モード（RL failure mode）に関連する問題に焦点を当てています。これはインフラ定義寄りの研究から、観察に基づく論文へと転換したものですが、この論文における主な観察結果は何でしたか？また、この観察を改善する方法にはどのようなものがあるとお考えですか？

王子涵：昨年 W&B（Weights & Biases）に記録された数千の実験を整理したところ、強化学習の異なる分野において、多ターン型エージェント強化学習（multi-turn Agentic RL）分野の推進難易度が、推論分野を遥かに上回ることが分かりました。

数学やコードなどの推論分野では、モデルの推論長（reasoning length）がトレーニングの増加に伴い伸び、モデルが徐々に深い思考を学ぶ様子が直感的に確認できます。しかし、多ターン型エージェント RL 分野では、20 以上のタスクをテストしましたが、この現象を再現することはできず、むしろモデルの推論長は低下し続けました。長さは単なる表層に過ぎず、その背後で真に反映されているモデルの推論能力と意思決定ロジックが何なのかを深く理解する必要があると考えます。

ZP：この現象の原因は、あなたが定義した環境と関係があるのでしょうか？あなたのフレームワークや定義する環境は、ソフトウェアエンジニアリング/コード（SWE）のようなものですか？それとも小規模ゲーム（Gym）のようなものですか？

王子涵：私たちの実験環境は、より分布外（OOD：Out-of-Distribution）シナリオ、つまりエージェントが不慣れなシナリオに傾いています。コードや数学などのタスクは、モデルの事前学習や後学習段階で大量のトレーニングが行われているため、エージェント RL 実行時の推論長低下現象はより緩やかです。しかし、このような整然としたタスクは、エージェントの実際の応用シナリオの一部に過ぎません。その他にも、GUI エージェント（ウェブページクリック）やゲーム（箱押しパズルなど）といった、エージェントにとって不慣れなタスクが多数存在します。

さらに挑戦的なのは、トレーニングですべてのベンチマークを網羅することはできず、テスト時には必ず OOD タスクが発生するという点です。私たちの実験室では SPA という論文で、状態困惑度（State Perplexity）を OOD 環境の検出指標として採用しました。その結果、箱押しパズルタスクの困惑度は 200 近くに達し、WebShop、数学、コードなどのタスクを遥かに上回ることが判明しました。

画像提供：被インタビュー者

私たちの目標はエージェントを実社会にデプロイすることですが、現実には OOD シナリオで最も問題が発生しやすいため、重点的な理解の強化が必要です。また、「推論長の低下」は OOD タスクに限定されるものではなく、分布内タスクにおいても、エージェントの推論ノイズにより、たまたま正解した後に推論チェーンが短縮される場合もあります。

ZP：この「たまたま正解した後に推論チェーンが短くなる」という現象は、異なる種類のタスク間で一貫した現れ方をしているのでしょうか？

王子涵：その差異は非常に顕著です。プログラミングや数学タスクには強力な因果連鎖があり、「プロセスが正しければ結果も正しい」のですが、箱押しパズルや WebShop などのエージェントタスクでは、ステップが誤っていてもタスクを完了できることがあり、さらにこれらのタスクの状態遷移にはランダム性が伴います。私は以前、Yutori でインターンとして GUI エージェント業務に携わっていましたが、長距離マルチモーダルエージェントのトレーニング難易度の高さを実感しました。例えば、エージェントにウェブページをクリックさせて航空券を予約させるといったタスクは、依然として完全に攻略された課題ではありません。観察したところ、モデル性能が向上するにつれ、推論はより脆弱になり、後に「テンプレートの崩壊」という現象を抽象化しました。モデルがプロンプトの変化に依存しない「決まり文句」を出力する傾向です。

では、「決まり文句」とは具体的に何を指すのでしょうか。本質的には、問題の変化に伴わない推論チェーンを指します。どのような入力プロンプトであっても、モデルが同じ表現を繰り返す傾向を指すのです。これに気づき、この現象を説明する理論的枠組みを探し求めました。そこで情報論の基礎に立ち返り、初期の論文を精読しました。その結果、入力 X と推論 Z において、推論の全体的な多様性 H(Z) は二つの部分から構成されると気づきました。一部目は「同題多解」、つまり入力 X が与えられた後の、単一入力内での推論チェーン Z の多様性、すなわち条件付きエントロピー H(Z|X) です。二部目は「異題異解」、つまり異なる入力 X の間で、推論 Z の分布が異なるかどうか、すなわち相互情報量 I(X;Z) です。H(Z)=H(Z|X)+I(X;Z) は情報論が数十年かけて発展させてきた成果ですが、これを LLM エージェントの推論崩壊現象の説明に用いた試みはこれまで誰にもありませんでした。

画像提供：被インタビュー者

しかし実験で観察したところ、トレーニングが深まるにつれ、後半には推論と入力の相互情報量がほぼゼロにまで低下していました。様々な方法で推論のエントロピーを高めようと試みましたが、結果は逆効果で、モデルが生成する内容は異なるプロンプト間での区別がつかなくなる一方でした。

ZP：こうした問題に対し、RAGEN V1 段階ではどのような試みを行いましたか？

王子涵：プロンプトフィルタリング（prompt filtering）を試みました。軌道展開（rollout）完了後、システムは同一入力下での異なるサンプル間の報酬に不一致がないかを確認します。もし特定のプロンプトに対応する全ての報酬が同一であれば、そのプロンプトはトレーニング信号を生成できないと判断します。中国語の作文試験で 5 記事書いても全て同じ点数では、比較も向上の余地もないため、そのプロンプトを直接除外するのです。

これは私たちが独自に考案したものではなく、産業界でも同時期に DAPO などの同様の発想が生まれていました。DAPO は有望に見えますが、私たちのエージェントタスクでは効果がありませんでした。中核的な理由は、これが異なるサンプリング間で点数が完全に同一のプロンプトのみを除外するだけなのに対し、エージェントタスクの報酬システムは往々にして二値（0/1）ではなく、報酬システムが複雑で、エージェントのサンプリングにも強いランダム性があるためです。そこで思考を転換しました。

RAGEN V1 では、シンプルな発見的アプローチを試み、これが報酬分散（RV：Reward Variance）と関連している可能性に気づきました。報酬分散を観察することで、タスクの学習価値を評価します。報酬分散が大きいほど、エージェントの現在の方策がそのタスク上で不安定であることを示すため、そのようなサンプルを保持します。逆に、除外します。V1 バージョンでは分散の高いサンプルの上位 25% または 50% を固定して保持し、V2 段階ではプロンプトの識別不能な原因をさらに追求し、トレーニングサンプルの RV が低いほど、推論プロセスと入力の相互情報量が急速に低下することを発見しました。

ZP：では、一体何が相互情報量に影響を与えているのでしょうか？

王子涵：探究の結果、相互情報量に影響する中核は二つのノイズであることが分かりました。これら二つのノイズ源は、アルゴリズム内部で安定性維持のために導入された正則化項、およびロールアウトプロセス自体が持つ環境的なランダムノイズです。

一つ目は正則化項に由来するノイズで、報酬分散（RV）が極めて低い際、優位関数はほぼゼロとなり、勾配更新は主に正則化項（KL ダイバージェンスやエントロピーなど）が支配的になり、モデルを単一の安定した推論チェーンを出力する位置へ押しやってしまいます。二つ目はランダムな環境からのノイズで、全く異なる推論を用いても、ノイズにより同じ結果に導かれる可能性があります。これによりモデルは、異なる推論でも同じ便益が得られると判断し、最終的に単純な推論を安定して出力するようになり、推論チェーンが画一化してしまうのです。

ZP：インフラ（infra）レベルのバグも、あなたの定義するノイズの範疇に含まれますか？

王子涵：昨年の夏、大規模言語モデルの RL におけるトークン化の不一致（tokenization mismatch）や FP16 と BF16（トレーニングと推論の精度変換による不一致）に関する最近の論文を精読しました。その結果、過去 1 年間、RL の基盤フレームワークには様々なインフラ上の問題が存在していたことが分かりました。それにもかかわらずトレーニングが成功していた事実は、その信号強度が十分に強かったことを示しています。

様々なレベルでのノイズを完全に排除することは困難であるため、戦略を「ノイズの排除」から「信号の制御」へ転換しました。信号が弱く学習価値のない部分を除外し、最終的に SNR 感知フィルタリング（信噪比感知フィルタリング）による適応型トレーニングスキームを設計しました。中核は、軌道展開中にサンプルの SNR（信号対雑音比）をリアルタイムで評価し、強信号で増分学習価値のあるサンプルのみにてパラメータを更新するというものです。これによりノイズの干渉を回避できるだけでなく、GPU リソースと時間コストも節約できます。具体的には、プロンプトを報酬分散（RV）順にソートし、Top-P アルゴリズムを模倣して累積貢献度の高いサンプルを保持します。現在、この手法は合成/実データ、シングルターン/マルチターン、ビジュアル/テキストなど複数のモダリティタスクで性能向上を実現しています。

画像提供：被インタビュー者

DAPO などのスキームが「信号なし」のサンプルを除外できるのに対し、私たちが RL の情報論的枠組みに基づき構築した SNR 感知フィルタリングは、エンジニアに調整可能なツマミ（Top-P 閾値）を提供します。信号の高いタスクであればサンプルの除外を減らして多くを学習させ、信号の低いタスクであればサンプルの除外を増やして高品質な内容の学習を確実にします。この調整ツマミ自体に関しても、Top-K フィルタリングが固定で上位 K 個のプロンプトサンプルを選択するのに対し、Top-P はトレーニングの異なる段階で動的により信号の高いサンプルを標的に収集できるため、トレーニング効率がより高く、サンプルの品質確保にも優れています。

ZP：ロールアウトが計算の大半を占めるのであれば、フィルタリング後にサンプルをいくつか捨てることは、その計算リソースの投入を無駄にすることにはなりませんか？

王子涵：計算時間の節約が中核的な価値ではありません。「フィルタリングすると収束により多くのサンプルが必要になるのではないか」という疑問に対し、比較実験を行いました。サンプリングするサンプル数が同一の場合、フィルタリングを有効にしたモデルの方が無効の場合を著しく上回る性能を示し、低 SNR サンプルの更新は無益なだけでなく、干渉を生むことさえあることを証明しました。

当時 RAGEN は NeurIPS へ投稿中で、査読者から多くの疑義を投げかけられました。さらに Yutori でのインターン中、エージェント RL の実験進捗が予想を下回り、毎日職場に戻って同じ実験設定でほぼランダムとも言える異なる結果の曲線が複数現れるのを目の当たりにし、深い困惑に陥り、非常に落ち込みました。幸運なことに、私たちは最終的に RL トレーニングにおける不安定性を説明する手法を見つけ出し、RL トレーニングをより制御可能にする方法を見出すことができました。

ZP：まとめると、プロンプトが低分散（low variance）を示すのには理由があります。たまたま正解しただけか、タスクが難しすぎてモデルが推測できないか、あるいはタスクが簡単すぎてモデルが毎回正解してしまうかのいずれかです。本質的に、これはそのプロンプトが現在のモデルトレーニング段階に適していないことを示唆しており、全体をフィルタリングするのが正しい選択です。後処理で人為的に高分散（high variance）に変換しようとしても実質的な意味はありません。では最後に観察された、分散が大きいプロンプトについては、モデルの能力境界（boundary）上に位置するケースだとお考えですか？また、これらのケースをどのように定義しますか？

王子涵：おっしゃる通りです。分散が大きいプロンプトはまさにモデルの能力境界上に位置し、モデルの出来不出来が不安定です。こうしたサンプルはトレーニングの費用対効果が最も高いのですが、それは現実の学習の本質を完全には明らかにしていません。現実には、たまに正解し、大半は間違えるタスクが最も学習価値が高いのですが、核心は現在のRL パラダイムが勾配降下法に依存しているため、学習プロセスが歪み、真の論理と偶然の結果を区別しにくい点にあります。

最も理想的な学習状態は、タスクの勾配がクリーンで、SNR（信号対雑音比）が高い状態です。私たちの研究も、報酬分散が大きいほど勾配信号がノイズに埋もれにくいことを証明しています。それにもかかわらず、私は今年の RL パラダイムシフトに期待を寄せています。おそらく人々はプロンプト（prompt）の研究へと回帰していくでしょう。私自身も最近これに夢中で、ある種の原点回帰だと感じています。現在では多くの場合、プロンプト最適化を行う方が、勾配降下を行うよりも効果が高いことさえあります。

ZP：では RL に戻りますが、Agentic RL や数学分野の RL を含め、このスケーリングの路線は一時停止する可能性がありますか？現在はまだ急成長段階にありますか？スケーリングが限界に達し新しいパラダイムが必要なのか、それともスケーリングそのもので十分なのでしょうか？

王子涵：スケーリングについて語る際、重要なのは何をスケールさせるかです。現在、業界全体が算力（コンピューティングパワー）へのスケールに注力する中、データを重視する向きもあります。以前、「一体何がエージェントなのか」と聞かれたことがありますが、私の考えでは、何かがエージェントかどうかは、それが置かれる物理的、あるいはデジタルな環境によります。完全に開かれたコンピュータ環境を与えれば OpenClaw となり、制限された環境なら Claude Code や Codex、チャットインターフェースだけなら GPT となります。環境の開放度が、エージェントの 0 から 1 への知能指数を決定するのです。あなたの問いに戻りますが、エージェント RL のスケーリング則について、最も中核的なのは「いかなる環境を提供できるか」だと考えます。

05 エージェントの次段階における中核命題はリソース適応：1 万円なら 1 万円分、100 万円なら 100 万円分の成果を

ZP：環境の拡張（scaling environment）に加え、モデル自体で改善が必要な点にはどのようなものがありますか？例えば、長いコンテキストや汎化能力などです。汎化は必然的に実現可能だとお考えですか？それとも本質的に不可能なのでしょうか？

王子涵：GPT との対話の中で、私が模倣する速度が加速していることに気づきました。これは皆が記憶能力を重視している証左です。現在、真に突破が難しいのは、現実の人間社会の意思決定に即したタスクです。現実には RL のトレーニング環境や試行錯誤の機会が乏しく、少量のオフラインデータを収集できるだけでも稀です。

もちろん、環境の構築にも取り組んでいます。一部の研究者と協力し、現実に即したシナリオを構築中です。イェール大、MIT、NUS のチームと共に O2 AI 社（o2tech.ai）を設立し、垂直業界の企業環境に深く統合されたエージェントハーネスを開発し、それに基づいて「リソース適応型」のエージェントフルスタックシステム（Infra / Benchmark / Service / Research）を構築しています。電子製造およびリサイクルサプライチェーンのシナリオを基にエージェントを構築し、企業のリアルタイムデータと直接対話し、企業のリソース（在庫、時間、資源、人的リソースなど）を理解し、それに基づいて倉庫が満杯になる時期や在庫処分が必要な時期などの企業意思決定をガイドします。このような現実のビジネスロジックに基づいた対話は極めて実用的価値が高く、これは将来のエージェント発展において避けて通れない重要な環節だと考えています。

画像提供：インタビュー対象者

エージェントは人類社会において、「実行者」から「意思決定者」へと徐々に役割を変遷させており、意思決定能力を備えたエージェントの構築がますます重要になっています。なぜ将来、従来のモデルではなく、あえてエージェントにこれらの複雑な企業業務を管理させる必要があるのでしょうか。第一に、エージェントはより複雑な文脈に基づく意思決定が可能だからです。人間が意思決定の妥当性を判断する際、過去のデータから算出される収益だけでなく、政策の変化やビジネス提携の意向など、多数の非構造化変数を考慮する必要があります。これは従来のモデルではカバーしきれない領域であり、それゆえにエージェントへの依存が不可欠なのです。

現実世界には試行錯誤の機会があまりにも限られているため、サンドボックス環境の構築は避けて通れない選択肢です。そこで私たちが現在取り組んでいるのが、リソース管理型エージェントです。私たちの研究は、エージェントが異なる予算制約の下で、いかに振る舞うべきかという点に焦点を当てています。多くのタスク設定は、「一定の資金を与えられ、いかに美しくタスクを完了させるか」というものです。しかし、さらに重要なのは、真にリソース適応能力を備えた人間やエージェントであれば、1 万円あれば 1 万円分の成果を、100 万円あれば 100 万円分の成果を上げられるということです。私たちが目指しているのは、まさにリソース制約に高度に適応するエージェントです。現実には、各部門の初期資金やリソースは均等ではなく、ランダムな制約に満ちています。いかにしてエージェントがリソース制限下で賢くリソースを活用できるようにするかは、極めて議論の価値がありながら、現時点で対応するベンチマークがほぼ存在しない問題です。それゆえに、O2 AI のような企業が、企業の実データを用いて構築した環境やエージェントシステムの方が、人間の意思決定の実際のニーズにより合致するのです。

より本質的な課題として、モデルがトークンを生成すること自体が、すでにリソースの消費であるという点が挙げられます。現在、コード作成系エージェントの多くは、単に「こんにちは」と一言言わせるだけでも 1 万〜2 万トークンを消費することがあり、これは極めて不合理です。この点に関し、現在多くの研究者が推論コストの最適化に取り組んでいます。

しかし私が考えるに、現在の研究はまだより本質的な命題には達していません。予算とは、単に少なければ少ないほど良いものではなく、核心は「投入対産出比（ROI）」の効率的なマッチングにあります。真の課題は、与えられた金額に見合った成果を上げられるかです。現在、効率化や予算制約に関する取り組みの多くにはバイアスが存在します。多くのアプローチが「いかに少なくするか」を追求していますが、真に進むべき方向性は、既存のリソースをいかに効率的に目標収益へ転換させるかという点にあり、これは全く異なり、かつ実際のアプリケーションシーンにより合致する最適化の思路です。

ZP：将来的には、学术界と産業界のどちらに残る傾向がありますか？また、その背後にある論理についてはどのようにお考えですか？

王子涵：どちらに所属していようと、研究は続けたいと考えています。研究そのものが発見のプロセスであり、何が新たな問題で、どの問題がより重要かを定義する行為そのものに喜びを感じるからです。したがって、場所がどこであれ、この道を貫くつもりです。

ZP：もし現在の LLM やエージェント分野において最も重要な問題を 3 つ挙げるとすれば、何を選びますか？

王子涵：第一にリソース管理です。前述の通り、エージェントに影響力の大きな意思決定を行わせる際、リソース管理はその生存の基盤となります。エージェントを実際にどの新しい環境（例えば企業向け ERP など）に導入するにあたっても、その環境のリソース管理ロジックを学習する必要があります。

これは自然と二番目の問題、つまりワールドモデル（World Model）へとつながります。現在、業界内ではワールドモデルの定義は多岐にわたりますが、私たちの研究室が注目しているのは、エージェント自身のワールドモデル、すなわち「ある行動をすることで、どのような影響が生じるか」を自律的に判断できるかどうかという点です。現在の主流となる RL アルゴリズムでは、エージェントが体系的にこのような明示的な予測能力を獲得することは依然として困難です。予算も本質的には一種のワールドモデルであり、あるアクションがどれだけのコストや隠れた費用をもたらすかを予測できなければなりません。

『ワールドモデル九宮格』のミーム画像。作成：王子涵氏

もう一つ、私が非常に興奮を覚えている方向性は、エージェントによる価値推定の深層モデリングです。O2 AI 社が展開する垂直業界（バーティカル）向けの企業意思決定エージェントには、汎用的な意思決定管理能力だけでなく、垂直業界の知識に基づき電子部品の残存価値を正確に評価する能力が求められます。同一の資材であっても、市場サイクル、在庫状況、解体ルート、販売チャネルが異なれば、その残存価値は全く異なるからです。このような垂直業界に特化した価値推定能力は、将来的にはゲームや取引市場などのシナリオへも転用可能になるでしょう。価格設定（プライシング）は極めて優れた入り口となります。なぜなら、それは検証可能だからです。大量の取引成立価格をアンカー（基準点）とし、エージェントに成約価格の予測と判断ロジックの抽出を学習させます。市場の変動によるノイズは存在しますが、RL（強化学習）とはそもそも戦略学習とノイズ除去を兼ね備えたプロセスです。学習を通じて蓄積される判断パターンが多ければ多いほど、エージェントが新しいシナリオに適応し進化する速度は速まります。

ZP：つまり、真にリアルタイムで競技レベルの AI を実現するには、アルゴリズム、インフラ、そして I/O 全体の共設計（Co-design）が必要だということでしょうか？

王子涵：その通りです。フルスタックレベルでの協働が必要であり、これは非常に普遍的な課題です。このリアルタイム対応能力は人間にはありますが、現在のエージェントには欠けている能力なのです。

それに加えて、継続学習（Continual Learning）も今年のもう一つの重要命題です。私たちは考えなければなりません。なぜ人間は物を学ぶのが年々速くなり、特に AI が登場してからは、新しい分野を学ぶ速度がさらに加速しているのか、と。

いかにしてエージェントに「学べば学ぶほど速くなる」この能力を持たせるか。その核心は、エージェントが多様なタスクを長期的に処理する過程で、蓄積した経験を内在化させ、それを全く新しいタスクへ転移できるようにすることです。私自身を例に取ると、最近は動画生成（Video Generation）に関する研究を行っていますが、以前は動画理解（Video Understanding）しか行ったことがなかったにも関わらず、この新しい分野を学ぶ速度は以前よりも格段に速まっています。この速度向上こそ、本質的に継続学習能力の表れです。エージェントにこの能力を獲得させるには、多様なテストベッドが必要で、絶えず学ばせ続ける必要があります。私の現在の構想では、エージェントに実際にゲームをプレイさせるのです。もし本当に世界中のあらゆるゲームをクリアできるエージェントが存在するならば、その過程で間違いなく非常にメタ的な何かを学習しているはずです。

ZP：今、重要な問題に気づきました。現在、最も成熟しているエージェント環境といえば、コード作成や数学分野です。これらは報酬の検証が可能で、思考の連鎖（Chain of Thought）だけで完結します。また、ゲーム系環境はインタラクションが強く、試行錯誤のコストも低いです。しかし、企業意思決定や予算管理といった実際のシナリオになると、トレーニング環境が極めて不足しており、試行錯誤には実際の金銭的代償が伴います。これはロボット工学分野の困境によく似ています。実データが入手困難でシミュレーションに頼らざるを得ませんが、シミュレーションと現実との間には隔たりがあります。高リスク・高コストのエージェントタスクにおいて、より忠実度の高いシミュレータを構築することには価値があるとお考えですか？

王子涵：私はアルゴリズムの進化という観点から見ることを好みます。人間には本来的に少数サンプル学習（Few-shot Learning）の能力が備わっています。高忠実度な環境を構築することも重要ですが、現実世界こそが完璧な実験場なのです。また、シミュレーション環境もゼロコストというわけではありません。安価すぎるシミュレーションは実世界との隔たりが大きく、ロボット工学分野がその典型例です。これがサンプル効率の問題解決を私たちに迫っています。現在の RL フレームワークには、まだ巨大な向上余地があります。以前、Thinking Machine API を使用した際、数百ドルの利用枠を与えられましたが、1 ラウンドも完了しないうちに使い果たしてしまいました。RL を 500 ステップ実行すると、1 ステップで 100 万トークンが生成され、1〜2 ドルものコストが発生することもあり、極めて高額です。

将来、現在の RL よりも数百倍から数千倍も効率的な手法が必ず現れ、エージェントが継続的かつ効率的に学習できるようになるでしょう。私たちが目指すべき究極のエージェントには、まだはるか彼方です。では今、環境を作るべきか、アルゴリズムを作るべきか。環境に関して言えば、その設計の本質はトレードオフにあります。低複雑度の環境では、エージェントが実際の高コストシナリオへ汎化することを支えきれず、高複雑度の環境はより高いコストを必要とします。したがって、突破口は必ずエージェントの学習速度の進化にあり、その核心は推論（Inference）です。推論によって、エージェントは学べば学ぶほど速くなり、異なるタスク間のより本質的な共通性を掴むことができるようになるのです。

注記：王子涵（ワン・ツゥハン）氏は、ノースウェスタン大学コンピューターサイエンス博士課程在籍。専門はエージェント強化学習（Agent RL）。2024 年に中国人民大学高瓴人工知能学院を首席で卒業。DeepSeek-V2 の研究に参加したほか、マイクロソフトや NVIDIA 等での研究歴も持つ。これまでに 20 本以上の論文を発表し、ICLR、NeurIPS、EMNLP、CVPR 等の会議で採択。総被引用数は 1600 回を超え、ICCV 2025 SP4V 最優秀論文賞、NeurIPS 2025 LAW 優秀論文賞等を受賞。RAGEN、VAGEN、MindCube などのエージェント訓練・評価フレームワークの開発を主導または参加し、GitHub での累計スター数は 1 万を超える。これらの活動は、スタンフォード大学 HAI、MIT テクノロジー・レビュー、フォーブス、フィナンシャル・タイムズ等によって報じられた。X（旧 Twitter）上の個人技術発信アカウントのフォロワー数は 2 万人を超え、代表的なスレッドは累計 100 万回以上の閲覧数を記録している。

なお、本インタビューの内容は慎重に編集の上、王子涵氏の承認を得ております。読者の皆様からのコメントやご意見も歓迎いたします。Z Potentials では引き続き、人工知能、グローバル市場、ロボット工学などの分野において、最前線で技術を探求する人々へのインタビューを提供してまいります。未来に憧れを抱く皆様が、私たちのコミュニティに参加され、共に学び、成長し、知識を共有していただけることを心よりお待ちしております。

Z Tech｜王子涵氏に聞く：DeepSeek を去り、人生を逆転させる思考とは

01 はじめに

02 人大 IR からバークリー RL へ：「人脈がなければ、オフィスアワーで突破口を開く」

03 王子涵氏が見た DeepSeek の実態：200 名規模でコードは一行一行修正、人事すらがモデルの進捗を共有

04 エージェントシステム：知能の上限を決めるのは算力やデータ規模ではなく、環境の開放度である

05 エージェントの次段階における中核命題はリソース適応：1 万円なら 1 万円分、100 万円なら 100 万円分の成果を

関連記事

分享網址