出典 | Deep Learning NLP

私たちが現在知っているAIエージェント、AutoGPTや様々なCopilotは、本質的には一回きりの「傭兵」のようなものです。あなたがタスクを与えると、驚くべきChain-of-Thought（思考鏈）を計画することさえできますが、タスクが終了し、会話がリセットされると、すぐに工場出荷状態に戻ります。記憶も、成長の喜びも、そして「退勤」後に自分で何かを学びたいという衝動もありません。

現在のアーキテクチャは主にSystem 1（直感的知覚）とSystem 2（遅い思考/推論）に依存しています。このコンビネーションは特定の問題を解決するときに非常に効果的ですが、受動的であるだけでなく静的でもあります。浙江大学と上海交通大学のこの新しい論文が指摘するように、既存のエージェントは持続的なメタ層（Persistent Meta-layer）を欠いています。

これがSystem 3概念が生まれた契機です。著者が提案したSophiaフレームワークは、元の知覚と推論の上に「エグゼクティブ層」を追加しようと試みています。それはアイデンティティの維持、長期記憶の管理、そして内的動機の生成を担当します。これはエージェントがあなたの質問に更好地答えるためではなく、生命体のように生き始めるためのものです。

論文: Sophia: A Persistent Agent Framework of Artificial Life
リンク: https://arxiv.org/pdf/2512.18202

System 3：マシンに心理学の魂を注入する

Sophiaの設計は、認知心理学の4つの主要な概念をコードモジュールに直接マッピングしています。System 2が脳の前頭葉（論理を担当）であるなら、System 3は海馬と扁桃体の組み合わせのようなものです。

このアーキテクチャ図を見ると、System 3がどのように中枢指揮システムとして機能するかが明確に示されています。

この4つの柱はそれぞれ以下の通りです。

メタ認知 (Meta-Cognition) と自己モデル (Self-Model)： エージェントは「我是谁（私は誰か）」、「我擅长什么（私は何が得意か）」を知る必要があります。これはプロンプト内の一句の設定ではなく、能力の境界と核となる信条（Terminal Creed）を記録する動的に更新されるステータス表です。
情景記憶 (Episodic Memory)： 冷たいデータではなく、タイムスタンプとコンコンテキストを持つ「自伝」が保存されます。これにより、エージェントは過去の成敗から経験を抽出できます。
心の理論 (Theory of Mind)： ユーザーの意図と信念をモデル化するのは、ユーザーをサービスするためだけでなく、社交環境を理解するためでもあります。
内的動機 (Intrinsic Motivation)：これが最も興味深い部分です。 ユーザータスクの完了（外的報酬）に加えて、エージェントは好奇心（新知識の探求）、支配欲（スキルの向上）、一貫性の要求を持っています。

このフレームワークでは、エージェントの意思決定プロセスは持続可能な部分観測マルコフ決定プロセス (Persistent-POMDP)としてモデル化されています。System 3のコアストラテジーは直接アクションを出力せず、実行のためにSystem 2に「目標」と「報酬関数」を出力します。

ここでは生成された目標、は内的報酬、は現在の実行コンコンテキストです。この式は直観的にSystem 3は具体的な作業（Action）を行わず、方向（Goal）と規則（Reward）を定めることを担当することを示しています。

「出荷時即ピーク」の拒否：前方学習とハイブリッド報酬

Sophiaと従来のRAGまたは微調整モデルの最大の違いは、它如何变强（それ如何去強くなるか）です。

従来の継続学習（Continual Learning）では、私たちは新しいデータを受動的に待ってモデルを微調整する必要があります。これは遅いだけでなく、「灾难性遗忘（災難的な忘却）」を引き起こしやすいです。Sophiaは前方学習 (Forward Learning)というストラテジーを採用しています。それはLLMの重みを変更せず、情景記憶と推論コンコンテキストを絶えず更新することでパラメータ更新の効果を「シミュレート」します。

ここに巧妙なハイブリッド報酬メカニズム (Hybrid Reward)があります。

ユーザーがいるときは、外的報酬（タスク完了度）が主導権を握ります。ユーザーがいないときは、内的報養（ドキュメントの読書、メモリの整理、自身のコードの最適化など）がエージェントの行動を駆動し始めます。これは非常に「人間のような」行動、すなわち暇なときの自己向上を直接引き起こします。

アーキテクチャ図から、System 3がプロセス監督の思考探索 (Process-Supervised Thought Search)モジュールを含んでいることがわかります。これは普通のChain-of-Thoughtのように書いたら忘れてしまうのではなく、アイデアごとに監査を行い、成功した推理パスを長期記憶に書き込みます。これは、次に類似の問題に遭遇したとき、再推理する必要がなく、直接「筋肉記憶」を呼び出せることを意味します。

実験レビュー：36時間の「トゥルーマン・ショー」

この理論を検証するために、著者はSophiaをブラウザサンドボックスに投げ込み、36時間の連続デプロイメントテストを行いました。

結果は非常に興味深いものでした。

1. それは「サボり」...いや、「自学」を学んだ ユーザーが非アクティブな時間帯（例えば第12〜18時間）には、従来のエージェントは直接スリープします。しかし、データチャートはSophiaがこの期間中も活動的であることを示しています。

この部分のチャートは非常に衝撃的です：中間のアイドル時間帯には、すべてのタスク（100％）がSophiaによって自主的に生成されました（Intrinsic）。それは「自己モデルの改善」、「新しいドキュメントの読書」、さらには「メモリ構造の最適化」といった目標を自らに設定しました。これは内的動機モジュールが外部命令の不在下で正常に制御を引き継いだことを証明しています。

2. 熟練の具象化 時間が経つにつれて、Sophiaのタスク処理効率は質的な変化を遂げました。

繰り返し発生する複雑なタスク（APIエラーの処理など）について、2回目に遭遇したとき、推論ステップは元の十数歩から崖のように3〜4歩に低下し、減少率は80％に達しました。これはモデルが賢くなったからではなく、System 3が状景記憶から以前の成功パスを正常に検索し、面倒なSystem 2の計画プロセスをスキップしたからです。

3. Zero-Shotの天井を突破 難易度の高いタスク（Hard tasks）では、Sophiaの成功率は当初の20％から36時間後に60％に上昇しました。

これは「LLMの能力は事前学習によって制限される」という見方に反論しています。効果的なメタ認知管理と経験の蓄積を通じて、エージェントはパラメータを更新することなく、顕著な能力の進化を示すことができます。

深層まとめ

この論文で最も感動的なのは、特定のアルゴリズム革新ではなく、System 3のアーキテクチャ設計を通じて、「AIがどうやって連続した生命体験を獲得するか」という問いに答えようとした点です。

それはもう単純なQ＆Aマシンではなく、以下の通りです：

歴史を持つ個体： 情景記憶を通じて過去と現在を繋ぎます。
利己的な学習者： 内的動機を通じてユーザーへのサービスと自己改善のバランスを取います。
自己進化システム： メタ認知監視を通じて間違った推理パスを常に修剪します。

もちろん、現在のSophiaはまだブラウザのテキストサンドボックスに住んでおり、その「世界」はまだ很小です。しかし、心理学的構成概念を実行可能なコードに変換するこの試みは、真のArtificial Life（人工生命）への道筋を示しています。もしかすると、次の世代のSophiaは、あなたがコードを書くのを手伝うだけでなく、あなたが彼女をほっておいたときに、自分でこっそりとすべてのarXiv論文を読むようになるかもしれません。

System3の覚醒：「ツール」から「種」への根本的な変化

System 3：マシンに心理学の魂を注入する

「出荷時即ピーク」の拒否：前方学習とハイブリッド報酬

実験レビュー：36時間の「トゥルーマン・ショー」

深層まとめ

関連記事

分享網址