AIが賢くなる真実は、実は「脳内チャット」をしているから?!
グーグルの最新研究によると、DeepSeek-R1のようなトップレベルの推論モデルは問題を解く際、内部で自発的に異なる性格の仮想人格に「分裂」します。例えば、外向的、厳格、懐疑的など。
大規模言語モデルの問題解決推論プロセスは、これらの人格による素晴らしい社交、討論会です。左右脳が争うようなものです。
「この考え方は正しいですか?こうして検証してみよう…」「違う、前の仮定はxx条件を考慮していなかった」…
面白いことに、AIは議論すればするほど賢くなることがわかりました。
研究では、GPQA大学院レベルの科学問題や複雑な数学推論といった高難度タスクに直面した場合、この内部の意見衝突がより激しくなることが発見されました。
対照的に、ブール式や基礎的な論理推論といった単純なタスクでは、モデルの脳内対話は明らかに減少します。
モデルの推論プロセスは「左右脳の争い」
チームはDeepSeek-R1やQwQ-32Bなどのモデルの思考軌跡を分析し、それらの推論プロセスが対話感に満ちていることを発見しました。
内部で分裂した仮想キャラクターは性格が大きく異なり、より多くの問題解決角度をカバーできます。
創造的なキャラクターは新しいアイデアを提案し、批判的なキャラクターは間違いを指摘し補完し、実行的なキャラクターは実証を担当します…
これらの人格による交流を通じて、異なる視点の衝突がモデルに解決策をより包括的に検討させます。
ネットユーザーも、自分自身が考える時、「左右脳が争う」と話しています。
ただし、この多キャラクター相互作用は開発者が意図的に設計したわけではなく、モデルが推論精度を追求する過程で自発的に形成されたものです。
では、実験はこれをどのように証明したのでしょうか?
チームはスパース自己符号化器(SAE)を活用し、AIの推論ブラックボックスを深度デコードし、AIの脳内チャットを「盗聴」することに成功しました。
まず、研究者はAIに複雑な数学または論理推論タスクを実行させました。モデルが思考チェーンを生成的同时、チームはその隠れ層ニューロンの活性化数値を同期して抽出しました。
しかし、この時のデータは数億のパラメータから構成される複雑な非線形信号であり、直接的には任何の意味に対応しません。
これらの活性化データをSAEに入力し、SAEのスパース制約メカニズムを通じて、雑然とした活性化を「自問自答」、「視点切り替え」などの独立した対話意味特徴に分解できます。
これらの特徴の活性化頻度とそれらの時間系列における協調関係を分析することで、チームは異なる内部論理エンティティを特定することに成功しました。
さらに、上記の特徴に「計画者」、「検証者」などの仮想キャラクターのラベルを付けることで、AI内部の多キャラクター対話行動をデコードすることに成功しました。
「おっと!」が推論をより正確にする
DeepSeek-R1とDeepSeek-V3、Qwen-2.5-32B-ITのような通常の指示モデルの推論軌跡を比較したところ、推論モデルの対話的行動の発生頻度が明らかに高いことがわかりました。
ここには非常に面白い発見があります。
「おっと!」が推論をより正確にします。
チームが活性化追加法を通じてモデルの対話特徴を強化し、「おっと!」のような驚きや転換を表す言葉マーカーを増幅させたところ、モデルのCountdown算術推論タスクでの正確度が27.1%から54.8%に直接倍増しました。
より重要な実験証拠は強化学習訓練から来ています。
研究者は対話構造の訓練信号を一切提供せず、モデルが問題に正解する行動だけを報酬としました。その結果、モデルは自発的に対話的思考を学ぶことがわかりました。
そして、まず多エージェント対話データでモデルを微調整し、その後推論訓練を行うと、直接推論を訓練するか、独白式推論データで微調整するよりも、進歩速度がはるかに速くなりました。
Qwen-2.5-3BとLlama-3.2-3Bの2つのモデル体系では、初期訓練段階で対話微調整モデルの正確度は独白微調整モデルより10%以上高く、Llama-3.2-3Bでは訓練後期には差が22%に拡大しました。
この発見は、人類進化生物学における有名な理論である社会脳仮説にちょうど合致します。
仮説では、人間の脳の進化は主に複雑な社交関係や集団相互作用のニーズに対応するために起こったとされています。
今看来、AIも同じで、賢くなるためにはまず異なる「人格」と社交できる必要があります!
論文アドレス:https://arxiv.org/abs/2601.10825参考リンク:https://x.com/sebkrier/status/2013331596863041731
— 完 —