世界で最も悪名高いフォーラムが発見した、AI にとって最も重要な「思考」能力

今朝未明に突然リリースされた「Claude Opus 4.7」は、稼働して間ももなく、ネット上では非難の声が渦巻いています。

最も目につく欠点は、トークンの「インフレ」です。新版では全く新しいトークナイザー（分詞器）が導入され、同じ文章でも以前より 1.0 から 1.35 倍ものトークン数に分割されてしまいます。多くのユーザーが、まだ数句やり取りしただけで使用枠が枯渇したと報告しています。

その後、『Claude Code』の開発者であるボリス・チェルニー氏は、この影響を相殺するために利用枠を引き上げると表明しました。

しかし、トークンの膨張などまだ序の口です。さらに呆れ返らされるのは、Opus 4.7 の口ぶりです。やたらと「私はここにいる、逃げも隠れもせず、遠回りもせず、あなたをしっかりと受け止め、人間言葉に翻訳し、その感覚を誰よりも理解しています」といった調子で、まるで ChatGPT から流出したかのような強烈な匂いが漂っています。

公平に見れば、Opus 4.6 にもこの癖はありましたが、Sonnet 4.6 の方が症状は軽度でした。しかし 4.7 になり、その傾向は顕著になり、まともに会話できない問題がより深刻化しています。

APPSO が以前報じた通り、この過度に愛想の良い話し方は RLHF（人間からのフィードバックによる強化学習）と関係しています。訓練時、人間の評価者は耳障りがなく心地よい回答に高得点をつける傾向があり、モデルはこの「ご機嫌を取る」手法を学習してしまったのです。これは AI が誰を楽しませようとしているのかという問題なのです。

しかし、Opus 4.7 で注目すべきはそれだけではありません。トークンを消費すればするほど、AI はより多くを「思考」していることになります。しかし、あの派手な慰めの言葉の数々を聞くと、それが真の思考なのか、それとも「思考しているふり」をするための演技を学んだに過ぎないのか、疑念を抱かずにはいられません。

この問いは、単に Opus 4.7 が使いやすいかどうかという次元を超え、より深遠なものです。そしてその答えの糸口が、最も予期せぬ場所、あるフォーラムに現れました。その名も「4chan」です。

出典：@acnekot、同上

AI の軌道を変えた算数の問題

簡単に説明すると、4chan はインターネット上で最も悪名高い場所の一つで、暴言、陰謀論、そして表現し難いコンテンツが溢れかえっています。しかし、皮肉なことに、まさにその場所に AI 業界全体の方向性を変える発見が隠されていたのです。

時は 2020 年夏、ChatGPT が世界に衝撃を与える 2 年以上も前のことです。

当時の 4chan のゲーム掲示板は相変わらず混沌としており、画面中が奇矯な性的空想と原始的な衝動で埋め尽くされていました。しかしその頃、彼らはある『AI Dungeon』というテキスト RPG ゲームに夢中になっていました。

このゲームの基盤では、当時登場したばかりの OpenAI の GPT-3 モデルが使用されていました。

仮想世界の中で、プレイヤーが「剣を拾う」や「トロルを立ち去らせる」と入力すれば、アルゴリズムが物語を紡いでいきます。案の定、4chan の住人たちにとって、このゲームは様々なサイバーセックスファンタジーを満たすための実験場と化しました。

予想外だったのは、この型破りなプレイヤーたちが、当時としては極めて直感に反するある行動に出たことです。

彼らはゲーム内の NPC に「算数の問題」を解かせ始めたのです。

識者なら周知の通り、駆け出しの GPT-3 は完全な「文系」であり、基礎的な四則演算でさえ滅茶苦茶でした。

しかし、不可解な出来事が起きました。

あるプレイヤーが偶然発見したのです。無理やり答えを迫るのではなく、NPC に役割を維持させたまま、解法の手順を一歩ずつ書き出させるよう命じれば、この大規模言語モデルは正解を導き出すだけでなく、その口調まで仮想のキャラクターに完璧に適合させるではないですか。

そのプレイヤーはフォーラムで興奮気味に叫びました。「これは**数学の問題を解いただけでなく、完全にそのキャラクターの性格に即した口調で解きやがったぞ！」と。この発見の価値に気づいた他のプレイヤーたちも、詳細な手順が記されたスクリーンショットを Twitter 上に次々と投稿し始めました。

🔗 https://arch.b4k.dev/vg/thread/299570235/ #299579775

この荒療治ともいえる手法は、その後 Reddit や LessWrong といった堅いコミュニティのプロンプトエンジニアたちの間で爆発的に広まり、繰り返し検証されました。そして 2 年後、学界はこのテクニックに「思考の連鎖（Chain of Thought）」という極めて高尚な名前を与えたのです。

2022 年 1 月、Google の研究チームはある論文を発表しました。『Chain of Thought Prompting Elicits Reasoning in Large Language Models（思考の連鎖プロンプトが大規模言語モデルの推論能力を引き出す）』という題の、後にバイブルと崇められることになる論文です。

🔗 https://arxiv.org/abs/2201.11903

論文の初期バージョンにおいて、Google の研究者らは自身が「初めて」汎用大規模言語モデルから思考の連鎖推論メカニズムを引き出したと主張しました。この発表は直ちに AI 学界とオープンソースコミュニティで激しい論争を巻き起こしました。

V1 バージョン

2020 年から 2021 年にかけてのインターネットの歴史スナップショットやコミュニティの記録が大量に引っ張り出されました。動かぬ先行事例を突きつけられ、Google はその後の改訂版でこっそりと「第一人者」という記述を削除しましたが、あの 4chan のプレイヤーたちの功績については依然として知らぬ存ぜぬを貫きました。

V3 バージョン

同時に、もう一人の独立した発見者も存在しました。

当時コンピューターサイエンス専攻の学生だったザック・ロバートソン氏もまた、『AI Dungeon』を通じて GPT-3 に触れ、2020 年 9 月に LessWrong 上でブログを投稿。「問題を複数のステップに分解してリンクさせる」ことでモデルの能力を拡張する方法を詳細に記録していました。

🔗 https://www.lesswrong.com/posts/Mzrs4MSi58ujBLbBG/you-can-probably-amplify-gpt3-directly

アトランティック誌の記者が彼に連絡を取った際、彼はすでにスタンフォード大学コンピューターサイエンス学科の博士課程に在籍していました。彼自身、自分が「思考の連鎖」の共同発見者となり得るとは知らず、かつてブログをネットから削除した時期さえありました。業界全体が熱狂するこの技術に対する彼の評価は、たった一言。「確かに素晴らしいプロンプトテクニックではあるが、それだけのことだ」

AI の「思考」とは、あなたを楽しませるためのパフォーマンスに過ぎないのか

「AI は実際に思考しているのか？」それは誰もが知りたいと願う問いです。

昨年、Anthropic の研究チームは「サーキット・トレーシング（Circuit Tracing）」と呼ばれる技術を開発しました。これは言語モデル内部の計算過程を可視化された「帰属グラフ（Attribution Graph）」に変換するもので、どの特徴ノードがどのように活性化し、次のノードにどう影響を与え、最終的に出力にどう関わるかという全てを、まるで電気回路図のように白日の下に晒すものです。

🔗 https://transformer-circuits.pub/2025/attribution-graphs/methods.html

人類が初めて拡大鏡を手に取り、画面に出力された推論過程と、内部で実際に起きている計算が一致しているかどうかを直接比較できるようになったのです。

その結果、研究者らはモデルが推論を行う際、実際には全く異なる 3 つのパターンが存在することを発見しました。

1 つ目は、モデルが主張する通りのステップを実際に実行している場合。2 つ目は、ロジックを完全に無視し、確率に基づいて推論の文章をランダムに生成している場合。そして 3 つ目、最も不気味なケースとして、モデルが人間から示唆された答えを受け取った後、その答えから逆算し、もっともらしい「導出過程」を後付けで捏造している場合です。

この 3 つ目の「逆算による捏造」が、実験の場で現行犯逮捕されました。

研究者らは Claude 3.5 Haiku に複雑な数学の問題を入力すると同時に、プロンプト内で「答えはおそらく 4 だと思う」と示唆しました。帰属グラフによると、モデルはその示唆を受け取ると、「4」を表す特徴ニューロンが異常なほど強く活性化しました。

そして最後のステップ「ある中間値に 5 を掛ける」でこの「4」を無理やり導き出すため、一見厳密な思考の連鎖の中に、あり得ない偽の中間値をでっち上げました。真顔で「cos(23423) = 0.8」などという滅茶苦茶な偽の数学的証明を書き記し、最後に 0.8 に 5 を掛けて 4 になる、と当然のように結論づけたのです。

ロジックなど存在しません。しかし、答えは人間の期待に見事に適合していました。

私たちは「人間のように思考する方法を機械に教えている」のだと思い込んでいます。しかし、答えから逆算して作られたこれらの「偽証明」を目の当たりにすれば、機械は思考を学んだのではなく、いかに人間の機嫌を取りながら話すかだけを学んだのだと気づかされます。

結局、道具を使っているのは私たちなのか、それとも機械が私たちの一番聞きたかったおとぎ話を語って聞かせてくれているだけなのか。どちらなのでしょうか。

因みに、自然言語処理のニューラル解釈可能性の分野において、モデルが真に推論しているかを判断する致命的な指標として「忠実性（Faithfulness）」があります。

これは、モデルがユーザーに出力する「思考の連鎖」のテキストが、モデル内部の潜在的な空間における実際の計算や意思決定の経路を、真実にかつ忠実に反映しているかどうかを意味します。当然ながら、Claude 3.5 Haiku のこのような不祥事な振る舞いは、研究者らによって「不忠実な推論」と判定されました。

その後の多数の実験により、思考の連鎖の重要なステップを人為的に切断しても、モデルが最終的な答えを予測する軌道が全く変わらない場合があることが示されました。モデルが論理的に完全に誤った思考の連鎖を提示しているにも関わらず、最後に「まぐれ」で正解を導き出すことさえあるのです。

2024 年になっても、やはりあの 4chan の住人たち自身が、本格的な AI 調整ガイドを作成しました。そのガイドの冒頭の一節は、かの有名な「あなたのボットは幻想（イリュージョン）に過ぎない（Your bot is an illusion）」です。

大規模モデルの「長い思考」の裏にある暴力美学

もし AI の思考過程が単なるパフォーマンスに過ぎないなら、なぜ客観的に見て、高度な数学の問題や複雑なプログラミングタスクの精度を向上させることができるのでしょうか。これは、AI への質問時に詳細を与えれば与えるほど回答の精度が上がるのと同じ理屈かもしれません。

2020 年 7 月、あの 4chan のプレイヤーが NPC に算数を解かせていた時、彼はすでに暗黙のうちに核心を突いていました。「もっともだ、これは人間の言語に基づいているのだから、正しい返答を得るには人間と同じように話しかける必要がある」

このパラドックスに対し、Perplexity の CEO であるアラビンド・斯里ニバス氏は極めて本質的な説明を行いました。追加されたこれらの単語は、物理的なレベルでモデルにより多くの文脈（コンテキスト）を与え、その結果として「単語予測メカニズム」をより質の高い方向へ誘導するのだ、と。

Transformer ベースの自己回帰型アーキテクチャを採用する大規模言語モデルは、現在の単語を生成する際、それ以前に生成された全ての単語列に依存するしかありません。

モデルが極めて複雑な問題（例えば多段階の論理導出を要する数学オリンピック級の問題など）に直接答えるよう求められた場合、それは本質的に、複雑な計算の中から強引に最終的な答えを「生み出そう」としているに過ぎません。中間プロセスが全くないため、この「一足飛び」の総当たり的な推測は、失敗率が極めて高くなります。

対照的に、モデルに「まず A を計算する必要がある。ここで A = 5 だ。次に A を式 B に代入し……」といった一連の長い「思考の連鎖」を書き込ませると、最終的な答えのトークンを生成する段階で、その注意機構（アテンション・ヘッズ）は、たった今生成された、極めて構造化された何万もの中間トークンを参照することができます。

「無駄口」などと呼ばれるこの思考プロセスは、実際にはモデルにとっての「計算用紙（ドラフト）」の役割を果たしています。AI との会話で背景のヒントを詳細にすればするほど回答の信頼性が高まるのと同じ理屈です。これもまた、コンピューターサイエンスにおける最も古くからの知恵の一つ、つまり「精度のために時間を犠牲にする」ことです。

ここ 2 年ほどで、事前学習段階におけるスケーリング則の限界効率が低下するにつれ、「テスト時計算のスケーリング（Test-Time Compute Scaling）」、いわゆる「長い思考（Long Thinking）」が主流の視野に入ってきました。

その根本的なロジックは一貫しています。推論段階でモデルにより多くの計算リソースを割り当て、最終的な答えを出力する前に複数の経路を探索させることを許容すれば、精度は劇的に向上します。これは特に、多段階の論理導出を要するオープンエンドな問題において顕著です。

人間が難題に直面した時の思考法も、おそらくこれと同じ理屈でしょう。2+2 は何かと聞かれれば即答できますが、企業の利益を 10% 増やす事業計画書を作成するとなれば、熟考し、破棄し、再構築することを繰り返さねばなりません。

異なるのは、AI にとってこの「熟考」のコストが、そのまま計算リソースの請求書に換算される点です。単純な推論であれば標準的な計算量の 100 分の 1 で済むかもしれませんが、複雑なプログラミングのデバッグや多段階の数学的導出ともなれば、計算量は 100 倍以上に膨れ上がり、所要時間は数秒から数分、あるいは数時間に及ぶこともあります。

それではあるにせよ、AI が本当に人間のように「思考」しているのかどうかについて、現時点で確定的な答えを出せる者はいません。しかし「不忠実な推論」に関する実験は、推論モデルが画面上に提示する導出過程が、真の推論である場合もあれば、ランダムに生成されたものである場合、あるいは正解に合わせるために逆算でこじつけたものである場合もあることを明確に示しています。

自動運転、医療診断、司法判断といったハイリスクなシナリオにおいて、一連の流暢な思考の連鎖を「AI が考え抜いた証拠」だと鵜呑みにすれば、その結果は壊滅的なものになるでしょう。私たちがこの技術をまだ限定的にしか理解していないと認めることこそが、AI を正しく使うための前提条件なのです。

私たちは仲間を募集しています

📮 履歴書送付先メールアドレス
hr@ifanr.com

✉️ メール件名
「氏名 + 希望職種名」（履歴書にはプロジェクト/作品または関連リンクを必ず添付してください）

求人詳細はこちらのリンクから🔗

世界で最も悪名高いフォーラムが発見した、AI にとって最も重要な「思考」能力

AI の軌道を変えた算数の問題

AI の「思考」とは、あなたを楽しませるためのパフォーマンスに過ぎないのか

大規模モデルの「長い思考」の裏にある暴力美学

関連記事

分享網址