ある7Bのモデルが、GPT-5を雇い入れた。
GPT-5はそれを受け入れた。
そして、その小型モデルはテストで、単独で挑んだGPT-5を上回る成績を収めた。
この論文を目にしたとき、私は数秒間、言葉を失った。それから読み返し、見間違いではないかと確認した。
見間違いではなかった。
何が起きたのかを明確に説明しよう。
今週発表された論文で、研究者たちは7Bの言語モデルを強化学習で訓練し、ある一つの技術を習得させた。それは、複雑な問題をサブタスクに分解し、より高性能なモデルに割り振るというものだ。GPT-5、Claude Sonnet 4、Gemini 2.5 Proといったモデルが、その「部下」になり得る。
この7Bモデルは実行者ではない。指令を出す「ディスパッチャー」なのだ。
その仕事は問題を解くことではなく、「誰が」「どの部分を」「どのモデルを使って」解くかを決定することである。
そして研究者たちは、このモデルを使ってGPQA Diamondというテストを実施した。これは、物理学、化学、生物学など複数分野の知識を統合して解く、高度な多段階推論を要求するために特別に設計されたベンチマークだ。最先端の大規模モデルが単独で挑んでも、かなりの好成績を収めることで知られる。
その結果、7Bのディスパッチャーが、GPT-5単体のスコアを上回ったのだ。Claude Sonnet 4やGemini 2.5 Pro単体のスコアさえも超えた。
なぜこれほどまでに衝撃を受けたのか、少し考えてみた。
本来、この結果は驚くべきことではないはずだ。私たちは、チームワークが個人技に勝ること、優れた分業が個々の総和以上の成果を生むことを知っている。目新しい話ではない。子供の頃に母から言われてきたことだ。
では、なぜ言葉を失ったのか。
それは、この事実が初めて数字で証明されたからだ。
「チームワークは良い」という漠然とした感覚ではなく、「7Bモデルが指揮を執った結果が、GPT-5単体よりも優れている」という、定量化された差として示されたのだ。
しかも、これがAIで起きたという事実が、その意味を極めて明確にしている。AIには感情も、阿吽の呼吸も、同じ方向を向く心もない。あるのは、「どのタスクをどのモデルに、どんなコンテキストで与え、結果が十分かどうか」という純粋な割り当てロジックだけだ。
つまりこの実験が示しているのは、「割り当てロジック」という次元を極めれば、結果は「パラメータの大きさ」よりも重要になり得る、ということだ。
この7Bモデルがどのように訓練されたか、その過程こそが最も興味深い点だ。
鍵となるのは、強化学習が使われていることだ。
強化学習が学ぶのは知識ではなく、戦略である。通常の言語モデルが膨大なテキストから「この状況で最も出現確率が高い単語は何か」を学ぶのに対し、強化学習は無数の試行錯誤から「この決断を下した結果、最終的な成果は良かったか悪かったか」を学ぶ。
前者が静的な統計なら、後者は動的な判断だ。
この7Bモデルは強化学習を通じて、「タスクをどう分解し、どう割り当て、どう結果を検証するか」という直感を形成した。誰かに教えられたのではなく、自らが無数の試行とフィードバックの中で培ったものだ。
これはあることを思い出させる。私たちはよく「マネジメントは能力だ」と言うが、そのマネジメント能力がどのように身につくのかは、あまり明確に語られない。
それは本を読んで得られるものではない。何度も実践し、何度も失敗し、その結果からのフィードバックを何度も受けることで形成される。
強化学習と人間の「経験」は、構造的に同一のものなのだ。
このシナリオをより具体的に描写しよう。
この7Bモデルが問題を処理するとき、それが書いているのはコードではなく、自然言語だ。
例えば、こう記述するかもしれない。「この化学問題の第一段階はClaudeに任せよう。分子構造の推論がより安定しているからだ。第二段階の数学的計算はGPT-5に渡そう。記号推論の正確性が高いからだ」。そして、この割り当て案を送信し、結果が返ってくるのを待つ。その出来栄えを判断し、不十分であれば再分解し、視点を変えて再度問い合わせる。
このフローにおいて、7Bモデルはどの大規模モデルよりも賢いわけではない。
それは、その化学問題の正解すら知らないのだ。
知っているのはただ、「自分よりはるかに強力なツールをいかに使いこなし、この問題を解決するか」という方法だけである。
さて、ここに私が心を動かされた核心がある。
現在のAIに関する主要な議論は、どのモデルが最も賢いか、最もパラメータ数が多いか、最も訓練データが多いか、という点に集中している。これらの議論は、「AI競争は能力競争であり、生の能力が高い方が勝つ」という前提を暗黙のうちに受け入れている。
この論文は、別の可能性を提示した。
真の差別化要因は、能力そのものではなく、「その能力をどう使うか」にあるのかもしれない。
この論理は人間にも当てはまり、私たちはそれをとっくに知っていたが、これほどクリーンな形で定量化した実験は、これまでなかった。
職場では、誰もがこうした人を見たことがあるだろう。技術力は平均的でも、率いるチームが常に成果を出し続ける人。また、個人としては非常に優秀なのに、管理職に就いた途端、すべてが混乱してしまう人。
前者が優れているのは技術のせいではない。それは「この仕事において、誰が自分より優れているか、どうすれば相手に適切なタイミングで適切な仕事をしてもらえるか」を知っているからだ。
この能力は、7Bモデルが学習したものと同種のものだ。
それでは、この実験は何を語っているのか。
私の考えでは、AIの次の競争軸はパラメータ数ではなく、アーキテクチャになる、と言っているのだ。それは、「どの単一モデルが最も賢いか」ではなく、「誰が最もよく複数のモデルを連携させ、協調作業を行えるか」である。
スタートアップにとって、これは朗報だ。なぜなら、「最も高価なモデルは必要ない」ということを意味するからだ。必要なのは、優れたスケジューリングのロジックだ。
大企業にとって、これは警告となる。計算資源とパラメータに資金を投入するだけでは不十分で、異なるモデルを適切なシナリオで機能させる方法を明確に考える必要がある。
一般ユーザーにとって、この出来事は極めて具体的な教訓を説いている。AIを使うとき、あなたの仕事は「最も賢いモデルを見つけること」ではない。それは、「このタスクのどの部分を、誰に任せるのが最善かを見極める」ことなのだ。
AIを使うとは最強のものを探すことだと思っていたかもしれないが、本当に重要なのは、タスクの各部分を誰に任せるのが最善かを見極めることだ。
ふと、ピーター・ドラッカーの言葉を思い出した。「マネジメントの任務は、普通の人に普通でないことを行わせることである」。
彼がこれを述べたとき、それは企業経営について語っていた。しかし今、それはこの7Bモデルが行っていることも描写しているように思える。
平凡な小型モデルが、正しい割り当てとスケジューリングを通じて、自分よりはるかに強力なツール群に、予想を超える成果を生み出させた。
これは「小型モデルが大規模モデルを打ち負かした」のではない。「人を使う才覚のある者が、最も賢い一匹狼に勝った」のだ。
このことは常に起きてきた。ただ過去には人間の世界で起き、私たちはそれを「マネジメント」という言葉で表現してきた。
今回、それはAIの定量実験で再び起き、GPQA Diamondのスコアという形で示された。
違いは、今回は数字があることだ。