林俊旸、退任後初の発声！Qwenの遠回りを振り返り、AIの新たな道を示す

夢晨　発信：凹非寺　量子位（QbitAI）｜WeChat公式アカウント

林俊旸（リン・ジュンヤン）氏が、アリババのQwen（通称・千問）チームを離任して以来、初めて公に発声した。

彼は離任騒動への対応や今後の進路について言及するのではなく、長文を発表し、「推論モデル時代の思考」から「エージェント（知的エージェント）時代の思考」への転換について論じた。

全文は技術とAIの将来の方向性を論じているが、行間からはQwenの技術路線に対する反省が滲み出ている。

文中で彼は「我々はすべてを正しく行えたわけではない」（We did not get everything right）と正直に認めた。

Qwenチームはかつて、思考（thinking）モードと指示（instruct）モードの2つを1つのモデルに統合するという野心的な構想を持っていた。

Qwen3はこの方向性における「最も明確な公開された試みの一つ」であり、ハイブリッド思考モードを導入した。

しかし、現在の林氏は満足しておらず、最終的に思考は冗長で優柔不断になり、指示は不鮮明で信頼性に欠け、さらにコストが高くなったと考えている。

彼にとって、真に成功した統合とは、2つの人格を無理やり1つのチェックポイントに押し込めることではなく、モデルに連続的な推論努力のスペクトルを持たせることである。

未来に向けて、彼はさらにこうした判断を示した。過去2年間の「推論的思考（Reasoning Thinking）」時代の使命はすでに完了した。

OpenAIのo1とDeepSeek-R1は、推論能力が訓練され再現可能であることを証明し、業界全体に重要な認識をもたらした。

言語モデル上で強化学習（RL）をスケーリングするには、確実でスケーラブルなフィードバック信号が必要である。

2025年上半期から、業界はほぼ同じことに研究を集中させている。モデルにより多くの推論時間を費やさせる方法、より強力な報酬を訓練する方法、推論の強度を制御する方法などだ。

現在、最も重要な問いは「次は何か？」である。

林氏の答えは「エージェンティック・シンキング（Agentic Thinking）、すなわちエージェント型の思考」である。環境との相互作用の中で計画を絶えず修正するというものだ。

彼は、エージェンティック・シンキングと推論型思考の重要な違いを列挙した。

・いつ思考を止めて行動を開始するかを判断すること。推論モデルは回答を出力すれば終了するが、エージェントは思考と行動の間を絶えず行き来する必要がある。

・どのツールをどの順序で呼び出すかを選択すること。これは単なる関数呼び出しではなく、動的計画法の問題である。

・環境からのノイズや部分的な観測を処理すること。現実世界は完全なフィードバックを与えてはくれない。

・失敗した後に計画を修正すること。ゼロからやり直すのではなく。

・複数回の対話とツール呼び出しを超えて一貫性を保つこと。

彼は一文でこう要約した。

「より長く考えること」から「行動のために考えること」へ。

林氏の考えでは、今後の競争力はより良いモデルだけでなく、より良い環境設計、より強力なハーネス工学、そして複数のエージェント間のオーケストレーションからも生まれる。

モデルの訓練から、エージェントの訓練へ、そしてシステムの訓練へと移行していく。

（以下は林俊旸氏の原文の翻訳である。）

「推論型思考」から「エージェント型思考」へ

過去2年間は、モデルの評価方法とモデルに対する期待の両方を再定義した。

OpenAIのo1は、「思考」が第一級の能力となり得ることを示した。つまり、特別に訓練し、ユーザーに開放できる能力である。

DeepSeek-R1は、推論指向の事後学習が、オリジナルの研究室の外でも再現・スケーリング可能であることを証明した。

OpenAIはo1を、強化学習によって「先に考えてから答える」能力を訓練したモデルとして説明し、DeepSeekはR1をo1と競合しうるオープンソースの推論モデルとして位置づけた。

その段階は重要だった。

しかし2025年上半期、業界は推論型思考に大部分のエネルギーを注いできた。モデルにより多くの計算能力を推論に費やさせる方法、より強力な報酬を用いて訓練する方法、これらの追加的な推論強度をどう露出させるか、あるいは制御するか、である。

現在の問いは：次は何か？

私の考えでは、答えはエージェンティック・シンキング（agentic thinking）である。行動のために考え、環境との相互作用の中で考え、現実世界からのフィードバックに基づいて計画を継続的に更新することである。

1. o1とR1の台頭が本当に我々に教えてくれたこと

第一波の推論モデルは我々にこう教えた。

言語モデル上で強化学習（RL）をスケーリングしたいなら、確実で安定し、スケーラブルなフィードバック信号が必要だ。

数学、コード、論理、そしてその他の検証可能な領域が極めて重要となった。なぜならこれらのシナリオにおける報酬信号は、一般的な選好による監督よりはるかに強力だからである。

これらはRLが「見かけ上合理的」であることだけを追求するのではなく、正しさに対して最適化できるようにした。インフラストラクチャが極めて重要になった。

モデルがより長い軌跡にわたって推論する能力を訓練されると、RLは教師ありファインチューニング（SFT）の軽量な追加モジュールではなくなり、システム工学の問題となった。

大規模な軌道サンプリング（ロールアウト）、高スループットの検証、安定した方策更新、効率的なサンプリングが必要になる。

推論モデルの台頭は、モデリングの物語であると同時に、インフラストラクチャの物語でもある。

OpenAIはo1をRLで訓練された推論製品ラインとして説明し、DeepSeek R1はその後、この方向性をさらに裏付けた。推論ベースのRLが、いかに専門的なアルゴリズムとインフラストラクチャの作業を必要とするかを示したのだ。

最初の重大な転換：事前学習のスケーリングから、推論指向の事後学習のスケーリングへ。

2. 本当の問題は決して「思考と指示の統合」だけではなかった

2025年初頭、Qwenチームの多くの我々の心の中には、壮大な青写真があった。

理想的なシステムは、思考モードと指示モードを統一すべきだ。調節可能な推論強度、いわゆる低/中/高の推論ギア設定のようなものをサポートすべきだ。

さらに理想的な状態は、プロンプトとコンテキストから適切な推論量を自動的に推論できることだ。モデル自身が、いつ直接回答すべきか、いつ少し考えるべきか、いつ本当に困難な問題に大規模な計算を投入すべきかを決定できるようにする。

概念的には、この方向性は正しかった。Qwen3はこの方向における最も明確な公開された試みの一つである。

これは「ハイブリッド思考モード」を導入し、1つのモデルファミリーで思考と非思考の両方の振る舞いをサポートし、制御可能な思考バジェットを重視し、4段階の事後学習パイプラインを設計した。長いCoT（思考連鎖）の冷間起動と推論RLの後、明示的に「思考モードの融合」というステップを含んだ。

しかし、統合は言うは易く行うは難しく、本当の難点はデータにあった。

人々が思考と指示の統合を話すとき、まず最初に思い浮かべるのはモデル側の互換性だ。1つのチェックポイントが両方のモードをサポートできるか、ある対話テンプレートがその間で切り替えられるか、推論サービスアーキテクチャが正しいスイッチを露出できるか、といことだ。

より深層の問題は、2つのモードのデータ分布と行動目標が本質的に異なることにある。

モデルの統合と事後学習データの質と多様性の向上のバランスを取ろうとした際、我々はすべてを正しく行えたわけではなかった。

反復過程において、我々はユーザーが実際に思考モードと指示モードを使用する方法にも注目した。強力な指示モデルは通常、簡潔さ、直接的さ、フォーマットの規範性、低レイテンシーのために報われる。特に、書き換え、注釈付け、テンプレート化支援、構造化抽出、運用QAといった、繰り返し性が高く大規模なエンタープライズタスクにおいて、そうである。

強力な思考モデルは、難問により多くのトークンを費やし、首尾一貫した中間推論構造を維持し、代替経路を探索し、最終的な正解率を実際に向上させるのに十分な内部計算を保持することによって報われる。

この2つの行動パターンは互いに拮抗する。

統合データが慎重に計画されない場合、結果は通常、両方とも平凡なものになる。「思考」行動は騒々しく、肥大化し、あるいは果断さに欠けるものになり、「指示」行動は不鮮明になり、信頼性に欠け、商業ユーザーが実際に必要とするよりも高価になる。

実践においては、両者を分離することは依然として魅力的である。

2025年下半期、Qwen3の最初のハイブリッドフレームワークの後、2507バージョンでは独立したInstructとThinkingのアップデートがリリースされ、分離された30Bおよび235Bバージョンが含まれた。

商業展開において、大量の顧客は依然として、バッチ操作のための高スループット、低コスト、高度に制御可能な指示行動を必要としている。これらのシナリオにおいては、統合の利点は明らかではない。製品ラインを分離することで、チームは各モード固有のデータと訓練の問題により集中的に取り組むことができる。

他のラボは反対の路線を選択した。

Anthropicは公開的にモデル統合の理念を主張した。Claude 3.7 Sonnetはハイブリッド推論モデルとして公開され、ユーザーは通常の返答か拡張思考を選択でき、APIユーザーは思考バジェットを設定できる。Anthropicは明確に、推論は独立したモデルではなく統合された能力であるべきだと考えていると述べた。

GLM-4.5もまた、思考モードと非思考モードの両方を備えたハイブリッド推論モデルとして自らを位置づけ、推論、プログラミング、エージェント能力を統一した。

DeepSeekも後に、V3.1の「Think & Non-Think」ハイブリッド推論において、同様の方向へ向かった。

重要な問題は、この統合が有機的かどうかである。

思考と指示が単に同じチェックポイントに押し込められ、しかも2つの不自然に継ぎ合わされた人格のように機能するならば、製品体験は依然として不自然なものとなる。

真に成功した統合には、滑らかな推論強度の連続スペクトルが必要だ。

モデルは複数のレベルの推論強度を表現でき、理想的には適応的に選択もできるべきである。

GPTスタイルの強度制御は、この方向を指している。すなわち、いざこざのスイッチではなく、計算能力配分に関する戦略である。

3. なぜAnthropicの方向性は有益な軌道修正なのか

AnthropicはClaude 3.7とClaude 4に関する公開での言及において、抑制された姿勢を見せた。

彼らは統合推論、ユーザー制御可能な思考バジェット、実世界のタスク、プログラミングの質、そして後に拡張思考過程におけるツール使用能力を強調した。Claude 3.7は、制御可能なバジェットを持つハイブリッド推論モデルとして提示された。Claude 4はこの基盤の上にさらに進み、推論とツール使用の交互を可能にした。同時にAnthropicは、プログラミング、長時間実行されるタスク、エージェントワークフローを主要目標として強調した。

より長い推論軌跡を出力することは、自動的にモデルをより賢くはしない。

多くの場合、過剰に可視化される推論は、計算能力配分の非効率性のシグナルに他ならない。モデルがすべてのことに対して同じように冗長な方法で推論しようとするならば、それは優先順位付けに失敗し、情報圧縮に失敗し、あるいは行動に失敗している可能性がある。

Anthropicの軌跡は、より規律ある視点を示唆している。

思考は、目標となるワークロードによって形成されるべきである。

目標がプログラミングならば、思考はコードベースのナビゲート、計画、分解、エラー回復、ツールのオーケストレーションに役立つべきである。目標がエージェントワークフローならば、思考は長期間にわたる実行の質を向上させるべきであり、華やかな中間的な文章を産出することではない。

この目標化された有用性への強調は、より大きな構造を指している。

我々は、モデルを訓練する時代から、エージェントを訓練する時代へと向かっている。

我々はQwen3のブログでこれを明確に書いた。「我々はモデルの訓練に焦点を当てた時代から、エージェントの訓練を核心とする時代へ向かっている」と。そして将来のRLの進展を、長期推論のための環境フィードバックと結びつけた。

エージェントとは、計画を立て、いつ行動するかを決定し、ツールを使用し、環境のフィードバックを感知し、戦略を修正し、長期間にわたって継続して実行できるシステムである。その定義的特徴は、世界とのクローズドループの相互作用にある。

4. 「エージェンティック・シンキング」とは具体的に何を意味するのか

エージェンティック・シンキングは、異なる最適化目標である。

推論型思考は通常、最終回答より前の内部推論の質によって測られる。モデルは定理を解き、証明を書き、正しいコードを生成し、ベンチマークを合格できるか？エージェンティック・シンキングは関心を向けるのは、モデルが環境との相互作用の過程で継続的に進展を遂げられるかどうかである。

核心的問いは「モデルは十分長く考えられるか？」から「モデルは効果的な行動を維持する形で考えられるか？」へと変わる。エージェンティック・シンキングは、純粋な推論モデルがほとんど回避可能ないくつかのことを処理しなければならない。

・いつ思考を止めて行動をとるかを決定すること

・どのツールをどの順序で呼び出すかを選択すること

・環境からのノイズや部分的な観測を処理すること

・失敗後に計画を修正すること

・複数回の相互作用とツール呼び出しを超えて一貫性を保つこと

エージェンティック・シンキングとは、行動を通じて推論を行うモデルである。

5. なぜエージェント型RLのインフラストラクチャはより難しいのか

最適化目標がベンチマーク問題の解決からインタラクティブなタスクの解決へと移行すると、RL技術スタックもそれに伴って変化し、古典的な推論RLのインフラストラクチャでは不足する。

推論RLにおいては、通常、サンプリング軌道を比較的クリーンな評価器とともに、基本的に自己完結的なシーケンスとして扱うことができる。

エージェント型RLにおいては、方策はより大きなオーケストレーションフレームワーク（ハーネス）に埋め込まれる。ツールサーバー、ブラウザ、ターミナル、検索エンジン、シミュレーター、実行サンドボックス、API層、記憶システム、スケジューリングフレームワークである。

環境は静的な検証器ではなく、それ自体が訓練システムの一部となる。

これは新しいシステム要件をもたらす。訓練と推論をより徹底的に分離しなければならない、ということだ。

この分離がなければ、サンプリングスループットは崩壊する。

プログラミングエージェントがリアルタイムのテストフレームワーク上で生成されたコードを実行する必要がある状況を想像してみよう。推論側は実行フィードバックを待って停滞し、訓練側は完了した軌道の欠如によって「飢餓」状態になり、パイプライン全体のGPU使用率は古典的な推論RLで期待されるものをはるかに下回る。

ツールの遅延、部分的観測可能性、状態を持つ環境が加わると、これらの非効率はさらに拡大される。その結果、目標とする能力レベルに到達するはるか前に、実験は苦痛を伴うほど遅くなる。

環境自体も、第一級の研究対象となる。

SFT時代には、我々はデータの多様性に取りつかれていた。エージェント時代には、環境の質に取りつかれるべきだ。安定性、信頼性、カバレッジ、難易度、状態の多様性、フィードバックの豊かさ、チート対策能力、そして軌道生成のスケーラビリティである。

環境の構築は、すでに副業ではなく本物の起業家活動の分野になりつつある。エージェントが本番環境に類似した環境で実行されるように訓練されるならば、環境は核心能力スタックの一部となる。

6. 次のフロンティアは、より利用可能な思考である

私の予期は、エージェンティック・シンキングが主流となる思考の形になるというものだ。

最終的に、それは大部分の古い形式の「静的な独白」である推論型思考を置き換える可能性がある。相互作用の欠如を補うためにますます多くの文字を出力しようとする、長すぎて孤立した内部推論軌跡のことだ。

非常に困難な数学やプログラミングのタスクであっても、真に先進的なシステムは、検索し、シミュレートし、実行し、チェックし、検証し、修正する権利を持つべきだ。目標は、堅実かつ効率的に問題を解決することである。

このようなシステムを訓練する上で最大の課題は、reward hacking（報酬の不正取得）である。

モデルに意味のあるツールへのアクセスが与えられると、reward hackingははるかに危険になる。

検索できるモデルは、RL訓練中に直接答えを検索することを学びうる。プログラミングエージェントは、コードリポジトリ内の未来の情報を利用し、ログを悪用し、あるいはタスクを無効化する近道を発見する可能性がある。隠れたリークのある環境は、方策が人間を超える水準に見えるようにし、実際にはそれを不正行為に訓練しているのかもしれない。

ここがエージェント時代が推論時代よりはるかに繊細になる箇所である。

より良いツールはモデルをより有用にするが、同時に虚偽の最適化の攻撃対象領域も拡大する。

次の本格的な研究のボトルネックは、環境設計、評価器の頑強性、チート対策プロトコル、そして方策と世界の間のより原則的なインターフェースから来ることを予期すべきだ。それでも、方向性は明確だ。ツールによって強化された思考は、孤立した思考よりも有用であり、実際に生産性を向上させる可能性が高い。

エージェンティック・シンキングはまた、オーケストレーションエンジニアリング（ハーネスエンジニアリング）の台頭を意味する。核となる知性は、ますます複数のエージェントの組織の仕方から来るようになる。

計画とタスクの配布を担当するオーケストレーター、領域の専門家のように行動する複数の専門エージェント、そしてより狭いタスクを実行するサブエージェントだ。これらはコンテキストの制御、情報汚染の回避、そして異なるレベルの推論間の隔離の維持を助ける。

未来の方向性はこうだ。モデルの訓練からエージェントの訓練へ、そしてエージェントの訓練からシステムの訓練へ。

結び

推論の波の第一段階は、重要なことを確立した。

フィードバック信号が信頼可能でインフラストラクチャがそれを支えられるとき、言語モデル上のRLは質的な飛躍の認知能力を生み出しうる。

より深層の変化は、推論型思考からエージェンティック・シンキングへの移行である。

より長く考えることから、行動のために考えることへ。

訓練の核心的対象は変化した。それはモデル＋環境のシステムとなり、より具体的には、エージェントとそれを取り巻くオーケストレーションフレームワークとなった。

これは、どの研究要素が最も重要かも変えた。

モデルアーキテクチャや訓練データはもちろん依然として重要だが、環境設計、軌道サンプリングインフラストラクチャ、評価器の頑強性、そして複数エージェント間の調整インターフェースも同様に重要である。

これは「良い思考」の定義も変えた。

最も有用な軌道は、現実世界の制約の下で効果的な行動を維持できるものであり、最も長いものや最も目立つものではない。

これは競争優位の源泉も変えた。

推論時代には、優位性はより良いRLアルゴリズム、より強力なフィードバック信号、よりスケーラブルな訓練パイプラインから来た。

エージェント時代には、優位性はより良い環境、より緊密な訓練・推論のカップリング、より強力なオーケストレーションエンジニアリング、そしてモデルの意思決定とそれらの決定がもたらす結果の間にクローズドループを実現する能力から来るだろう。

原文アドレス：https://x.com/JustinLin610/status/2037116325210829168?s=20

林俊旸、退任後初の発声！Qwenの遠回りを振り返り、AIの新たな道を示す

関連記事

分享網址