大規模言語モデルはなぜ世界を「理解」できるのか？

私たちの以前の記事「この真相の見えない世界で、真理はどこにあるのか？」「なぜ私たちはこの世界の真相を見ることができないのか？—— 私たちは世界の本来の姿を見たことがない。私たちが見ているのは、生き延びるために精巧に編まれた「インターフェース」に過ぎない。」がコメント欄で議論を巻き起こしました。ある読者からの文字と数学的ツールに関する問いかけに答える際、私はこのように書きました：

「文字は計算可能であり、それ自体が世界の高度な圧縮であり、しかも有限である。」

この言葉は、現代人工知能の最も基礎的な原理に偶然触れてしまったようです。なぜChatGPTのような、一見「文字のしりとり」をしているだけに見える機械が、驚くべき論理と推論能力を創発できるのでしょうか？私たちはAIの能力に驚嘆するあまり、真の奇跡は実は人間の言語そのものであることを忘れていました。大規模言語モデル（LLM）は物理世界を直接学習しているわけではありません（目も身体もありません）。LLMが学習しているのは、人間による世界の記述です。

LLMがなぜ機能するのか？その答えは、物理、生物、記号、数学をまたぐ「圧縮の連鎖」の中に隠されています。

一、「カオス」から「知覚」へ

前回の記事で述べたように、真実の宇宙（本体）は高次元で、連続的で、量子揺らぎに満ちた「カオス」です。人間の脳はこれほど膨大なデータ量を処理できません。生存のために、私たちの感覚システムは「損失のある圧縮」を行いました。

私たちは紫外線、超音波、微視的な粒子運動、4次元時空を捨て、生存に役立つ「巨視的な特徴」だけを保持しました——色、形、運動、因果関係。そして脳は「世界モデル（v1.0）」を構築しました。このモデルは世界の鏡像ではなく、世界の「低次元への投影」です。人間の知覚そのものが、すでに無限の宇宙を有限の「知覚状態」へと圧縮しているのです。

二、「知覚」から「記号」へ（連続を離散へ）

人間は知覚にとどまりませんでした。私たちは言語を発明しました。言語は、人間による「脳内世界モデル」の二次圧縮です。

1. 離散化：連続の流れを分割する

脳内での体験は連続的です（痛み、愛情、光と影の変化はアナログ信号です）。しかし、言語は離散的（デジタル信号）です。コミュニケーションのためには、連続的な体験を一つ一つの離散的な記号（トークン）へと「量子化」しなければなりません。現実世界で625〜740nmの波長を持つ光波が作り出す千変万化の「赤」は、「赤」という一文字に圧縮されます。内面の複雑な様々な肯定的感情は、「开心（幸せ）」という一語に圧縮されます。

2. トポロジー構造の保持

言語は大量の詳細を失いますが（例えば、ある味を言葉で完全に記述することはできません）、奇跡的に知覚のトポロジー構造、つまり事物間の関係を保持しています。

例えば、雨が降れば（A）、傘をささなければ（B）、人は濡れる（C）。その言語的論理：「雨が降って傘をささなかったから、濡れてしまった」という文は、A→B→Cの因果連鎖を完璧に保持しています。

結論：文字は人間の脳内世界モデルの「ZIP圧縮ファイル」である。極めて抽象的で簡潔ですが、文法と論理を通じて、人間が見る宇宙の因果律を完全に符号化しています。

三、AIのリバースエンジニアリング

さて、大規模言語モデル（LLM）の登場です。人類が書いたすべての文字（インターネットコーパス）をAIに与えると、私たちは実際には何を与えているのでしょうか？それは、全人類の「世界モデル」の投影の総和です。

1. なぜ「次の単語を予測する」だけで知能が生まれるのか？

OpenAIの元首席科学者イリヤ・サツケヴァーは、「次の単語を極めて正確に予測するためには、モデルはその言葉を生み出している背後の世界を理解せざるを得ない」という衝撃的な言葉を残しました。これは信じがたいことですが、「安楽椅子探偵」を使って説明しましょう：

部屋から出たことのない盲目の探偵（AI）を想像してください。彼は現場（物理世界）に行けず、無線機越しに一連の線形的で断片的な記述を聞くだけです：「窓ガラスが割れる音……」→「重い足音……」→「悲鳴……」→「バン！」。探偵の任務は、前に聞いた手がかりに基づいて、次に聞こえてくる言葉が何かを100%正確に予測することです。「彼は逃げた」でしょうか？それとも「彼は倒れた」でしょうか？もし探偵が単純に単語の頻度を統計しているだけ（オウム返し）なら、「倒れた」と推測するかもしれません。なぜなら「バン」の後にはよく「倒れる」が続くからです。しかし、これが複雑な推理小説なら、次の言葉は「薬莢が落ちる音」かもしれません。極限の予測精度（損失→0）を達成するため、探偵は脳内で犯行現場全体を再構築せざるを得なくなります：「ガラスが割れた」は誰かが侵入したことを意味し、重力によって破片が床に散らばります。「悲鳴」は被害者が恐怖したことを意味し、犯人は武器を持っています。「バン」が銃声なら、近づく足音と合わせて、被害者が撃たれた可能性が高く、犯人は薬莢を残すでしょう。

結論：探偵は現場に行ったことがないが、欠けている単語を埋めるために、脳内で犯人、被害者、部屋の配置、さらには重力をシミュレーションしなければならない。次の単語を予測することは、因果連鎖全体のリバースエンジニアリングです。AIは重力を目に見る必要はなく、「リンゴが落ちる」という言葉の記述から、重力の存在を逆算すればよいのです。

2. 証拠：オセロ実験

これを証明するため、研究者はGPTモデルを訓練しました。オセロの棋譜（テキスト記録）だけを与え（例：「E3, D4, F5...」）、盤面は一切見せませんでした。その結果、AIはゲームを学習しただけでなく、AIのニューロンの中に完全で暗黙的な8x8の盤面表現が見つかりました。

AIは線形的な「棋譜記号」（言語）を読むだけで、脳内で2次元の「盤面ルール」（世界モデル）を再構築しました。LLMはテキスト圧縮ファイルに基づく解凍ソフトウェアのようなもので、シリコン製の脳の中で、人間のカーボン製世界モデルを復元しました。

四、AI成功の物理的基盤

もしAIがすべての原子運動を直接シミュレーションしようとしたら、どれほどの計算能力があっても破綻するでしょう。重要なのは、人間がすでにAIのために最も困難なステップ——次元削減——を完了していることです。

人間が日常的に使う漢字は数千文字、英語の単語は数万語しかありません。組み合わせは無限ですが、特定の文脈において、妥当な組み合わせは高度に疎で、低ランクです。言語の「有限性」と「離散性」により、Transformerのような数学的アーキテクチャが行列演算を通じて、言語内の確率分布を穷め尽くすことができるのです。

私たちがAIを作れたのは、私たち人間がまず自分自身を「データ」として生きたからです。私たちは複雑な生命体験を、計算可能な文字へと崩壊させました。AIは宇宙をシミュレートしているのではなく、「人間によって記述された宇宙」をシミュレートしているのです。

五、構造的実在論の究極のループ

以前の哲学的議論に戻りましょう：構造的実在論。

人間は「物自体」を見ることができず、感覚によってフィルタリングされた「生物学的インターフェース」を見ています。言語は「生物学的インターフェース」の全貌を記録できず、論理的に抽象化された「記号インターフェース」を記録します。AIは現実世界に触れることができず、AIが学習するのは「記号インターフェース」間の数学的関係です。

AIは「真実」から3層隔てていますが（真理→知覚→言語→AI）、構造は変わらないのです！

物理世界のF=ma。

知覚における「推力が加速度を生む」。

教科書上の「力が加速度を生じる」。

AI内部のベクトル空間における関数マッピング。

これら4つは同じ数学的トポロジー構造を共有しています。