著者
サミュエル・ガーシュマン
ハーバード大学心理学教授
ハーバード大学心理学部および脳科学センターの教授。彼の研究室は、学習、記憶、意思決定、知覚の計算メカニズムを研究している。ハーバード大学ケンプナー自然・人工知能研究所のメンバーでもあり、『What Makes Us Smart: The Computational Logic of Human Cognition』の著者でもある。ガーシュマン研究室の研究目的は、個人が環境に関する複雑な構造化知識をどのように獲得し、その知識が適応的行動の形成にどのように役立つかを理解することである。研究室では、行動学、神経画像、計算技術を組み合わせてこれらの問題を探求している。
機械学習と神経科学は双方向に歩み寄っている
多くの科学分野と同様に、神経科学はこれまで経験的現象の因果的説明を追求してきた。一方で、機械学習の分野は歴史的に、予測を行えるシステムの構築に重点を置いてきた。しかし近年、両者の境界は曖昧になりつつある。神経科学はますます予測問題に注目し、機械学習の手法を採用するようになり、機械学習は因果的説明への関心を深め、神経科学の研究手法をますます参考にするようになっている。
この役割交換の影響について議論する前に、いくつかの例を見てみよう。Brain-Scoreは、神経反応を予測する能力に基づいてモデルを評価するプロジェクトであり、神経科学が予測科学へと進化していることを示している。このプラットフォームには、定量的ベンチマーク(神経記録データなど)とモデルのリーダーボードが含まれている。これと並行して、機械学習に触発されたもう一つの取り組みとして、神経科学のための「基盤モデル」の開発がある。これらのモデルは膨大な神経データで訓練され、その予測能力が検証基準となる。
▷ https://www.brain-score.org/
機械学習の分野では、説明科学への移行に伴い、機構的解釈性研究が登場した。その野望は、予測タスクのために訓練された機械学習システムの内部動作メカニズムを特定することにある。入力と出力の関係を特定することに焦点を当てた初期の解釈性研究(例えば、システムがなぜある人物へのローンを拒否し、別の人物には承認したのかを説明する)とは異なり、機構的解釈性研究は、システム内部の計算要素間の関係を探求することに専念している。神経科学との血縁関係は隠されることなく、人工システムにおいて「コネクトミクス」研究を再現しようとさえ企てている。Anthropicの共同創業者クリス・オラーらが2020年のオンラインレビューで次のように書いている通りである。
▷ https://distill.pub/2020/circuits/zoom-in/
もし(人工ニューラルネットワークの)個々のニューロン、あるいは個々の重みでさえも、真剣に研究する価値のある対象として扱ったらどうなるだろうか? 何千時間もかけて一つ一つのニューロンとその接続を追跡することを厭わないとしたら? その結果、ニューラルネットワークのどのような全体像が浮かび上がるだろうか?
神経科学者たちはこの呼びかけに熱心に応え[1]、自らのツール、アイデア、解釈の枠組みを持ち込んだ。これには、単一ニューロンの同調や集団レベルの表象類似性の解析、非線形ダイナミクス、回路除去といった多様な研究手法が含まれる。機械学習の研究者が神経科学のツールを明示的に借用していない場合でも、結果的に類似した手法を再発明することも多い。
しかしながら、私が考えるに、機械学習が解釈可能性へと舵を切ったからといって、神経系の本質の理解に近づけるとは限らない。もし神経科学において予測が説明を完全に代替してしまったら、貴重な科学的洞察を犠牲にせざるを得なくなるだろう。同時に、機械学習における説明は、神経科学の説明が直面してきたのと同じ難題、すなわち、入り組んだ巨大システムは神経科学の従来のメスに簡単には屈しない、という問題に必ず遭遇する運命にある。皮肉なことに、この点は機械学習の研究者(および一部の哲学者)によって既に認識されているが、神経科学の学術的言説には未だに浸透していないのである。
予測を説明の代わりに用いることの神経科学における障壁
予測と説明の間の緊張関係は、哲学、統計学、社会科学において繰り返し現れるテーマである。歴史的に見て、科学は自然現象に対する機構的な因果説明を見つけることに尽力してきた。例えば、L-DOPAがなぜドーパミンレベルを上昇させることでパーキンソン病の症状を改善するのかを説明する、といった具合である。システム神経科学において、因果機構的説明は通常「回路機構」である。これは機械学習における機構的解釈性研究のインスピレーションの源でもあり、興奮性と抑制性の相互作用を通じて特定の機能を説明する神経モジュールを指す。例えば、眼球の位置が安定に保たれる背後にある因果機構は、リカレント結合したニューロンが織りなすネットワーク[2]であり、線アトラクタを実装していると考えられている。
他の科学分野と同様に、神経科学における機構的因果説明は、予測には有用かもしれないが「擬似相関」に過ぎない要因を排除しようと試みる。例えば、L-DOPAは不随意運動や頭痛といった副作用を引き起こす可能性があり、これらの副作用はパーキンソン症状の改善効果と相関している。機械学習アルゴリズムは副作用から治療効果を「予測」できるかもしれないが、正気の人間なら誰でも、副作用は決して治療効果の「原因」ではないと理解している。もし副作用だけを治療対象とし(例えば頭痛にタイレノールを服用する)、仮定上の因果機構(すなわちドーパミン)に手を触れなければ、パーキンソン症状は変化しないだろう。
上記の例は予測と因果機構的説明の間に顕著な違いがあることを示しているように思えるが、現在の機械学習と統計学の分野では、両者を結びつける見解が存在する。機構的因果説明は、本質的には「不変な予測」である。予測アルゴリズムは観測データ内の擬似相関を利用できるかもしれないが、特定の介入条件下(前述のタイレノールの例のように)では、その予測は破綻する運命にある。一方、因果機構とは、擬似相関を取り除いた後でも成立し続ける予測関係のことである。
不変な予測は因果性の必要条件かもしれないが、それ自体は因果機構を明らかにするものではない。因果機構を理解するためには、システムの構成要素を測定し操作することにより、どの予測関係がどの介入条件下で持続するかを特定する必要がある。したがって、もし神経科学者が依然として説明を目標としているのならば、Brain-Scoreや神経基盤モデルのように純粋に予測に焦点を当てることは、説明の仕事を代替することはできない。
システムのアライメント、安全性、トラブルシューティングなどへの懸念から、機械学習の研究者は、機構的因果説明を研究するためにより介入的な手法を採用することの重要性を認識している。最も影響力のある手法の一つは「回路仮説」[3]に基づいており、これは、特定のサブネットワークが密かに特定の行動を駆動している、という考え方である。神経科学は、単一ニューロンおよび集団レベルの同調解析、脳刺激、除去/ノックアウト技術など、そのような回路を特定するための完璧なツールキットを提供しているように見える。しかし、一部の悲観的な研究[4]が示すように、システムを回路に還元しようとするとき、私たちは乗り越えがたい「複雑性の壁」に衝突する運命にある。最悪の場合、神経系を回路レベルで完全に理解するためには、必要な介入の回数(例:ニューロンのサブセットの不活性化)がニューロン数に応じて指数関数的に増大する[5]。この計算上の処理不可能性[6]は、ニューラルネットワーク内の回路を近似的に理解する際にも存在する。
神経科学において大切にされてきたもう一つの仮説は、介入を用いて機能局在を確立できるというものである。例えば、特定のニューロンを刺激または不活性化することでシステムの行動が特定の方向に変化した場合、研究者は通常、それらのニューロンが機能的にその変化を司っていると推論する。しかし、機械学習からの証拠[7]は、このような大雑把な操作が「局在錯覚」を生み出す可能性を示している。つまり、介入によって、特定の機能が誤ってあるサブネットワークに関連付けられてしまうのだ。さらに、機能局在によって特定されたサブネットワーク以外のシナプスの重みを変更することでも、システムの出力を特定の方向に変化させることができる[8]。別の悲観的な研究結果が示すのは、神経科学で広く使用されている次元削減技術が「解釈性の錯覚」を生み出す可能性がある[9]ということだ。つまり、低次元の表象が訓練データにおけるモデルの振る舞いを十分に要約できていたとしても、新しいデータ分布でモデルをテストすると、それらの表象が破綻する可能性がある。
これらの観察結果は、神経科学のツールで機械学習を救済しようと目論む人々を震撼させるに十分なはずである。同様に、これらのツールが神経科学それ自体を救うと盲信している人々も、目を覚まさせるべきである。実際、ほぼ十年前から学界でははっきりと認識されていた:中程度の複雑さの計算回路を相手にした場合でも、神経科学のツールは為す術がない可能性がある[10]。しかしながら、これらのツールが神経科学で依然として使われ続けている主な理由は、より良い代替案をまだ設計できていないからである。
最後に、我々はもっと前向きになるべきだ。機械学習と神経科学の対話は、たとえそれが我々のツールの限界や仮定の脆弱性を明らかにするだけだとしても、非常に価値があることを認めなければならない。機械学習と神経科学の継続的な対話は、新たな方法の出発点となることが期待される。
神経科学コミュニティが予測と説明の関係をどのように捉えているかをより広く理解するために、私は8名の神経科学者に以下の質問について見解を求めた:神経科学において、説明を予測で置き換えることは可能か? 回路マッピングは、深層学習の説明フレームワークとして十分か? それはまた、神経科学それ自体の説明フレームワークとしても十分か?
専門家の見解
トレントン・ブリッケン(Anthropic)
▷ トレントン・ブリッケン、Anthropicのアライメント科学チームの技術スタッフ。現在、Claudeの自動コンテンツ審査とアライメントバイアス検出機能の実現に貢献している。
神経科学者にとって、数日で数万個のニューロンからのデータを記録できれば、それはもう感謝感激といったところだ。これらのデータは通常ノイズを含んでおり、しかも大半は単純なタスクを実行する小型哺乳類からしか取得できない。一方で、ClaudeやGPTのような大規模言語モデル(LLM)は、人間レベルかそれ以上のパフォーマンスで多様なタスクを実行し、世界に関する豊かな表象を持ち、かつ決定的に研究可能である――私たちはそのすべてのニューロンと神経接続にアクセスできるのだ。この極めて豊富なデータ源と、LLMの増大し続ける能力が、本稿で議論される「機構的解釈性」研究を推進している。
神経科学者がLLMと生物学的な脳の間の隔たりを疑うのはもっともなことだが、私は両者に重複する中核的な計算原理がいくつか存在すると考えている。その一つが、情報の表象と保存の方法である。生物の脳と大規模モデルは、どちらもニューロンや結合の数をはるかに超える数の「事柄」を学習する。これらの情報(事実、記憶、連想など)を保存するために、両者は何らかの方法で情報を低次元の表象に効率的に圧縮しなければならない。研究によると、LLMは「重ね合わせ」で情報を符号化している。すなわち、個々の情報は単一のニューロンに保存されるのではなく、複数のニューロンの発火パターンとして表現される(神経科学では、これは集団符号化と呼ばれる)。この圧縮メカニズムをリバースエンジニアリングするために、スパースオートエンコーダーと呼ばれるアルゴリズムが、圧縮された低次元表象を高次元空間に再投影する。例えば、Claude 3 Sonnetの単一の層を、ゴールデンゲートブリッジのような解釈可能な概念に対応する3000万の固有の方向に分解する。これは、大規模モデルが解決しなければならない、そして脳も同様に直面する中核的な計算問題である。人工知能分野でこの問題を克服できれば、生物学的知能を理解するのに役立つアルゴリズムが開発される可能性が高い。神経科学の記録技術が拡張されるにつれて、これらのツールは生物の神経表象の解読においても同様に強力になるかもしれない。
ジェネル・フェザー(カーネギーメロン大学)
▷ 計算知覚研究所を率いる、カーネギーメロン大学神経科学研究所および心理学科の助教授。彼女の研究室は神経科学、認知科学、人工知能の交差点に位置し、知覚の背後にある複雑な神経パターンを研究している。計算モデルと生物学的システムを比較することで、彼女の研究は知覚の基本原理を明らかにし、現在の人工知能と人間の経験の違いを特定し、生物学的脳のモデルを改善することを目指している。
神経科学と機械学習は深く絡み合った歴史を持っている。近年、これら二つの分野の境界の一部はさらに曖昧になっている。このコラムでサム・ガーシュマンは、神経科学が機械学習に転向するときに何が起こるかを探り、神経活動をますます強調する予測モデルの傾向に疑問を投げかけている。私もこれらの「デジタルツイン」への盲目的な依存には慎重な姿勢をとるが、高忠実度の予測モデルが神経処理の理解をどのように前進させるかについて、新しい時代にあってはより楽観的な見方をしている。
予測モデルとは、本質的には、「計算がどのように実現されるか」や「表象がどのように創発するか」という抽象的な仮説を、強制的に具体化したものである。モデルは、生物学的な実装の詳細を抽象化したり、あるいはそれらの詳細を明示的に取り込もうとしたりと、異なる分析レベルに合わせて構築できる。モデルが観測データを予測できなければ、そのモデルで具象化された仮説は反証されたことになる。しかし、モデルが成功したらどうだろうか? 本稿で指摘されている「擬似相関」(または「ショートカット学習」)は重要である。モデルは正しい答えを予測したが、その理由は間違っていた、というものだ。しかし、これは予測モデルを完全に放棄する理由にはならない。むしろ、科学者として、予測モデル内の擬似相関を「打ち破る」ための実験を厳密に設計することが求められる。
Brain-Scoreや神経科学における基盤モデルは、例えば「分布外」サンプルでのテストを通じて、既にその方向に進んでいる。鍵となるのは、機械学習モデルは大きく複雑かもしれないが、ブラックボックスではないということだ。計算機シミュレーション実験は、効率性と制御可能性を提供する。多数のシミュレーションを実行し、正確な除去を行い、モデル自体から目的の刺激を導き出し、あるいは訓練データを変更して計算上制御された「飼育実験」を行うことができるのだ。この方法により、より効率的な生物学的データ収集を導き、既存の神経表象仮説に潜む潜在的な交絡因子を明らかにすることができる。
上記の「デジタルツイン」は、工学的アプローチにおいて大きな可能性を秘めている。例えば、予測モデルを利用して、人工内耳や皮質刺激のような、新しい個別化された神経シミュレーションアルゴリズムを開発できる。しかし、モデルを直接用いて神経表象を検出することも可能だ。特定のニューロン集団を駆動できる刺激を合成したり、異なる生体モチーフの必要性を分析したりできる。「機構的解釈性」研究が試みているように、これにはこれらの複雑なシステムでより優れたパフォーマンスを発揮する新しいツールや分析技術の開発が必要になるかもしれないが、計算モデルは、実際の生物学的データで新しい分析方法をテストするための理論的基盤を提供するのだ。
コンラート・ケルディング(ペンシルベニア大学)
▷ ペンシルベニア大学知識統合(PIK)神経科学教授であり、NeuromatchおよびRigorous Communityの共同創設者。運動制御、神経データ手法、計算神経科学への貢献、そしてオープンサイエンスと科学的厳密性への提唱と貢献で知られる。彼の研究は実験的手法と計算原理の応用を組み合わせている。彼の仕事は主に規範的モデル、特にベイズ統計の概念に基づいている。科学者の将来の成功を予測するために、10年後のh指数を予測できるアプリケーションを開発した。彼の実験的研究は運動学習と運動制御に関わり、これらの現象をベイズの考え方と結びつけている。最近は、大規模な神経データセットを取得し、神経データの解析に焦点を当てている。彼は神経科学研究におけるパラダイムシフトを頻繁に提唱しており、神経科学への深層学習の応用に関する論文を多数発表している。
我々は二つの分野が互いの最悪の習慣を交換するのを目撃している。神経科学はベンチマーク予測を理解と誤解し、機械学習は機構を記述する言語を機構そのものと誤解している。神経科学と機械学習が混乱する可能性があるという警告は意味があり、最も明確な対応策は、予測(たとえそれが何らかの不変な予測であっても)と因果推論を区別することだと私は考える。
予測(すなわち順問題)は、測定値xを結果yに対応付ける関数を見つけることを要求する。因果推論(または逆問題)は、「測定対象のシステムのどの部分が実際に結果に影響を与えるのか、そして、より良い結果を生み出すためにそれらをどのように変えればよいのか」を問う。どちらの問題もy=f(x)と書かれるため、いささか遺憾ではあるが、これらは本質的に異なる問題である。これは目標が異なるだけでなく、それらの幾何学的構造も異なっている。
予測は一対一の対応を要求しない。なぜなら、相関する変数は互いに代替可能だからだ。もし二つのニューロン(または二つの遺伝子)が高度に相関していれば、多くのモデルが同様に優れた予測を立てられるが、「寄与」の割り当ては大きく異なるだろう。データは通常、少数の次元に集中しており、xの各次元間で高度に相関している。これらの相関は予測を容易にする。我々がデータが通常存在する「多様体」上で良好な予測を行えば良いだけなのだ。
因果推論が困難である理由もまさに同じである。逆問題を解くことは、相関が存在する状況下で直接効果と間接効果を区別する必要があることを意味し、これは暗黙的または明示的に相関構造の逆行列を求めることを意味する。この構造が悪条件の場合、わずかな推定誤差が、推論された因果要因に大きな変動をもたらす可能性がある。良い予測が得られるということは、しばしば、因果推論を困難にする条件、すなわち自由に代替可能な強い相関が存在することを示すものである。
「因果性は不変な予測である」という前出の議論を強化できる点がもう一つある。実践上、不変性はほとんどの場合、局所的である。我々は通常、真の因果的介入を行うのではなく、分布がわずかにシフトした類似のデータセットで安定性を検証する。結局のところ、そのような介入はコストがかかる。この局所的な不変性は有用であるが、それが主に証明するのは、異なる状況の類似性である。対照的に、因果性が高い評価を得ているのは、それがより広範な汎化能力を追求するからだ。つまり、システムが効果を生み出すメカニズムを反映しているため、幅広い種類の介入下でも安定した関係を保つのである。
これが我々に与える現実的な教訓は、不変性について語る際には、その領域を明確に区切らなければならないということだ。つまり、どのような介入が関与し、どの程度で、どのような仮定に基づいているのか、ということを。前述の複雑性の壁はこの見解を強化する。もし神経系の包括的な回路理解にニューロン数に対して指数関数的な回数の介入が必要ならば、実用的な「不変な予測」は、我々が実際に探査した介入空間のごく小さな範囲内でしか不変ではない。神経科学で実験を行う方法を考えると、我々は通常、脳に軽微な摂動しか与えないため、真に新規な刺激に対して脳がどのように反応するかについてはほとんど知らない可能性がある。それは、我々がまだ実施しておらず(そして実施できないかもしれない)介入の下でも成立する真の因果構造についての言明ではなく、局所的な安定性についての言明に過ぎないのだ。
ジョン・ピアソン(デューク大学)
▷ デューク大学神経生物学准教授。彼の研究室は理論および計算神経科学に焦点を当て、視覚、運動制御、自然行動に応用している。
脳は我々に説明を負ってはいない。脳のような再帰的非線形力学システムに直面した時、それが我々の推論可能な方法で記述できる必然性など何も示唆してはいない。しかしながら、断片的に、そして驚くべきことに、不可能事が実際に起こる。我々は確かに時折、物事について何らかの理解を得るのだ。霊長類の眼球運動系、ショウジョウバエの中心複合体、鳴禽類の学習回路、そして多くの種の網膜において、我々は少なくとも脳機能の理解の初稿を手に入れている。これらのすべてが示しているのは、我々が人工ニューラルネットワークの解釈可能性の外観だけで判断するならば、世界は実際よりも不可知に思えるかもしれないということだ。
しかし、なぜそうなるのだろうか? 私から二つの答えを提示しよう。第一に、我々は、顕著な制約の下で動作するシステムの説明において、比較的大きな成功を収めてきた。これらの制約は、情報に関連するもの(例えば、初期感覚系は周囲の世界を選択的に圧縮する必要がある)や構造的なもの(例えば、ショウジョウバエのナビゲーションシステムは高度に特異的な入力を必要とする)であり得るが、いずれの場合も、神経科学は汎用ニューラルネットワークよりもはるかに単純なモデルを手にしており、この簡潔さこそが、実験者と理論家がその機能の組織化原理を解明することを可能にしているのである。
第二の答えはもちろん進化である。より具体的に言うと、突然変異はランダムであるにもかかわらず、進化が探査する適応度景観は高度に構造化されている。神経系が遺伝子に指定されたプログラムを通じて発達しなければならないという事実は、結果として生じるコネクトームの種類が、組織の生物物理学、局所性、疎結合性、細胞タイプといった複数の制約によって束縛されることを保証する。これらのネットワークはランダムに初期化されるのではなく、出生時から基本的な、しばしば非常に複雑な行動を実行できるように、発達過程を通じて調整されているのである。
したがって、神経科学者は予想以上に有利な立場にいる。確かに、脳機能は極めて複雑であり、その大部分は長い間、我々にとって不可解なままであろう。しかし、この複雑性は微調整と修正を通じて徐々に蓄積され、かつ発生のロジックに従って構築されなければならないという事実こそが、楽観論の源泉となるべきである。おそらくこのような状況では、脳の複雑性をゴルディアスの結び目のように一刀両断に斬る必要はなく、我々は玉ねぎのように層ごとに剥がしていくことができるのかもしれない。
ザック・ピトコウ(カーネギーメロン大学)
▷ カーネギーメロン大学計算神経科学准教授。彼は計算神経科学者であり、脳の数学的理論と知能システムの一般原理の開発に取り組んでいる。主に、分散型非線形神経計算が統計的アルゴリズムをどのように利用して自然な状況下での行動を導くかを研究している。合成エージェントで検証済みの新しい解析手法を開発し、実験研究者と緊密に協力して、実際のデータを用いて理論を検証している。
本稿は、神経科学の手法を機械学習に適用すること、および機械学習の手法を神経科学に適用することの限界について重要な指摘をしている。文中の二つの主要な論点は、「予測は説明を代替できない」こと、そして「説明は複雑なシステムにとって扱いにくい」ということだ。私はこれに対して、より楽観的な反論を提示したい:説明が真に提供するもの、すなわち汎化能力を認識すれば、文中で提起された二つの論点がもたらす問題は自ずと解決する。
機構的な因果説明の根本的な価値は、システムを構成要素に分解することにあるのではなく、新たな条件下で、つまり介入、分布シフト、異なるタスクのカテゴリを超えて予測を可能にすることにある。これには、前述の不変な予測も含まれる。しかし、もし説明の価値がその汎化能力にあるのならば、予測と説明の間には根本的な緊張関係は存在しない。説明こそが、予測の汎化を可能にする鍵なのである。前述の局在錯覚や解釈性の錯覚は確かに存在するが、それらは誤った構造を暴くのに十分なほど厳密な汎化条件の下でテストが行われなかったことを反映しているに過ぎない。
因果説明を汎化の観点から再定義しようとする試みは、神経回路の説明が遭遇する複雑性の壁についても応答することができる。本稿では最悪ケースの分析を引用しているが、その分析における複雑性の上限は、あらゆる神経回路が起こりうると仮定している。実際の神経システムは、生物学的なものであれ人工的なものであれ、疎結合や低次の相互作用といった豊かな構造を持っており、これらの制約を前提条件とすることで、神経系の回路レベルの説明は、最悪ケースが示唆するよりも容易に扱えるようになる。さらに言えば、神経系の正確な回路への還元が可能か否かに関わらず、それは神経科学が説明に貢献できる唯一の階層ではない。適切な説明の階層とは、我々が関心を持つ領域において十分な汎化能力を提供できる階層のことである。
基盤モデルは興味深い例を提供する。それらは何かを説明しているのだろうか? 機構的に全く異なる多数のネットワークが、自然なタスクにおいて同じ入力-出力行動を生み出すことができ、潜在的なダイナミクスさえ共有し得る。このことは、特定の汎化タスクにとっては、正確な回路への還元が必須ではないことを意味する(もちろん、モデルに存在しない回路要素への介入の汎化は除く)。多くの説明的制約は、詳細な機構がなくても有効であり得る。特に表象レベルや、リソースと行動に対する規範的制約のレベルでそうである。これらの制約は依然として因果的であり得るし、少なくともアリストテレスの「目的因」と見なすこともできる。基盤モデルが提供するのは真の説明である。それらは汎化でき、反証可能であり、システムがなぜ有効なのかを教えてくれる。それらは単に回路図ではないだけだ。領域関連のタスクにおける機能的等価性は、完全な因果機構と比較してより弱い基準であるが、結果的に、複雑なシステムに関する多くの疑問にとっては、まさにこれこそが適切な分析の階層であることが判明する。
したがって、課題は予測と説明のどちらかを選択することではなく、科学的に関連する領域での汎化を可能にする記述階層を特定し、その汎化能力を実証するための十分に強力なテストを設計することである。まさにここに、神経科学と機械学習の相互作用の最大の価値がある。
ジェマ・ロイグ(フランクフルト・ゲーテ大学)
▷ フランクフルト・ゲーテ大学コンピューターサイエンス学科の教授。hessian.AIのメンバーであり、MITの脳・心・機械研究センターに所属している。
神経科学と人工知能の融合が強まるにつれ、神経科学は予測中心の分野へと押しやられ、説明と因果性に関する疑問が生じている。現代の深層学習モデルは、特に感覚や言語の領域において、現在では脳活動の予測や、人工システムと生物学的システム間の表象の比較に広く利用されている。モデルを生物学的データに制約することで、タスク性能とモデルの頑健性が体系的に向上することが期待されているが、これはまだ完全には実現していない。対照的に、人工知能分野では、解釈可能性への取り組みは主に、本来は不透明なモデルの内部動作メカニズムを探るための、後付け分析ツール(その多くは神経科学に触発されている)の開発へと向かっている。
人工知能モデルは非常に複雑であるにもかかわらず、それらは依然として計算上の抽象概念であり、生物学的神経系の多くの構造的・動力学的特性を省略している。表象のアライメントと予測精度は情報価値があるが、機構的または因果的な説明を確立するには不十分である。例えば、解釈可能性ツールによって明らかになった表象のアライメントが顕著な改善をもたらす場合、その原因は、それらのツールが明らかにすると考えられている機構そのものではなく、間接的な訓練ダイナミクスやモデルアーキテクチャにあるかもしれない。
こうした限界はあるものの、人工知能モデルの単純化された性質と制御可能性は方法論上の利点を構成する。生物学的システムとは異なり、人工知能モデルは直接介入することができる。構成要素は除去、修正、再訓練が可能であり、学習のダイナミクスを体系的に変更できる。このような介入により、制御された因果テストや交絡因子の体系的な特定が可能となり、観測された行動や表象に対する代替的な説明を評価できる。これらの操作は生物学的システムに直接マッピングできないかもしれないが、神経科学では通常直接検証することが困難な因果仮説の構築に情報を提供することができる。神経科学において現在予測が重視されているのは正当なことだ。なぜなら、それは必要な経験的制約を提供するからである。強力な予測性能は、説明のための最低限の経験的基盤を提供する。予測そのものは機構を確立しないが、予測なしには、機構についての主張は強固な基盤を欠くことになるだろう。
将来の進展には、アライメントや予測を最終目標と見なすのではなく、解釈可能性の手法と明示的な機構解析を組み合わせる必要がある。研究は単に予測と表象のアライメントに焦点を当てるのではなく、特定の認知機能に対象を絞り、モデルがその機能を実現する内部回路、変換プロセス、学習された構造を深く掘り下げるべきである。
ナオミ・サフラ(ハーバード大学)
▷ ハーバード大学ケンプナー研究所の研究員であり、2026年よりボストン大学に着任予定。彼女は、実証研究を通じて言語モデルの訓練プロセスを理解することに尽力している。モデルはいつ言語パターンやその他の構造を符号化することを学ぶのか? それはモデルの動作原理や理由について何を教えてくれるのか? 有益な帰納バイアスを訓練プロセスに符号化できるか? 最近では、自然科学者や社会科学者と協力し、解釈可能性を利用して我々の周りの世界を理解し始めている。
予測は我々の理解を示すことができるが、それは予測を行うために使用されるシステムを真に理解している場合に限る。観測データからブラックボックスモデルを訓練し、それが行動を首尾よく予測できることを発見したとしても、我々が手にしているのは第二のブラックボックスモデルに過ぎない。これは、我々が何も知らなかった出発点からほとんど進歩していない。しかしながら、計算主体について構築した直感的なシミュレーションに基づいて、そのシミュレーションを使って予測を行うことができたならば、たとえそれらの直感的なシミュレーションが主体の因果機構を反映していなくても、それらは(ある程度は)正しいと言える。我々の直感的なシミュレーションは、その構成要素の実装には触れていなくとも、計算論的なレベルで計算主体を全体的に記述しているのだ。
一方で、たとえ因果機構の同定に成功したとしても、本稿が解釈可能性の錯覚を強調することで指摘しているように、我々は以前と同じく進歩がないままかもしれない。もし人間がその機構を生み出す構造を理解できない場合、あるいは介入がどのように効果を生むかについての我々の説明に欠陥がある場合、追加された新しい説明は、計算主体への理解を深めるどころか、追加された第二のブラックボックスに過ぎなくなる。
脳、大規模言語モデル、あるいはその他のプロセスのいずれであれ、何をもってシステムを理解したと言えるのか? 鍵となるのは、我々の記述が因果的か予測的かではなく、その記述自体が理解されているかどうか、である。
悪い知らせは、この性質が本質的に主観的だということだ。ある人々はシステムの正確な数学的記述を直感的に理解するかもしれないが、他の人々はその直感が存在することをただ信念として受け入れるしかない。したがって、新しい記述が人間の理解を前進させたかどうかを確実に知ることはできない。まずその個人の理解を前進させない限りは。
しかし、たとえ人間が10億のパラメータを含むシミュレーションを理解できなくても、良い知らせもある。ブラックボックス的な記述が我々の理解を直接深めることはできなくても、元の主体が持っていなかった新しいツールを使うことを可能にするかもしれない。この仮定に基づけば、どんな予測的な記述も我々の理解を前進させる可能性を秘めている。問題は依然として残る。どのような種類の記述が我々の理解を深めるのか?
ジェームズ・ウィッティントン(オックスフォード大学)
▷ オックスフォード大学の主任研究員で、人工知能と神経科学の基礎を研究するチームを率いている。オックスフォード大学で物理学、医学、神経科学の学位を取得。AIスタートアップや大手テクノロジー企業での勤務経験があり、現在は複数のAIテクノロジー企業にコンサルティングを提供している。非営利団体「Thinking About Thinking」の共同設立者であり、団体の科学的アジェンダと、毎年開催される複数のサミットや会議のアジェンダ編成を担当している。
人工ニューラルネットワークは極めて強力だが解釈が困難であり、それは生物学的な対応物である脳と非常に似ている。しかし、入力xから出力yを予測する効率性の高さから、我々は神経科学の多くのデータにおいて「黙って、訓練だけしろ」というパラダイムに陥りつつある(これは量子物理学における「黙って計算しろ」という考え方と呼応する)。本稿は、理解可能性を予測力と引き換えにするというこのトレードオフに正当な疑問を投げかけている。
解釈不可能なモデルは、過去数十年にわたる伝統的な神経科学モデルとは明確な対照をなしている。当時のモデルは、そのほとんどが手作業で構築され因果的なものだった。ベイズモデルはこのアプローチの典型例である。因果モデルy=f(z)に従って、データyから変数zの分布を推論する。因果的思考は解釈可能性が高いだけでなく、「分布外」データを自然に扱うことができる。これは真の理解の証である。
まさにここに予測モデルの問題点がある。因果モデルなしでは、予測が成功しても、それは真の因果変数と相関する別の変数に依存している可能性があり、それが汎化を妨げるのだ。アガサ・クリスティの小説を読めば、彼女の別の小説の犯人を当てるのが上手くなるかもしれない(あるいはLLMが上手くなるかもしれない)。なぜなら彼女の文体を理解したからだ。しかし、それによってあなた(あるいはLLM)が探偵になれるわけではない。アガサ・クリスティはおそらく現実世界の殺人を企ててはいないからだ。
不変予測は、状況を超えて持続する予測関係(殺人の因果ロジック)を特定し、変化する関係(著者の文体)を無視することで、この問題を緩和しようと試みる。しかし、相関が擬似的かどうかを判断するために十分な数の状況にわたるデータを収集することは容易ではなく、仮に十分なデータを収集できたとしても、ニューラルネットワークが学習した因果モデルは解釈可能性技術が想定するような性質のものではない可能性が高い。
メタ学習は「分布外」の問題を単に一つ上の階層に引き上げるだけである。異なるタスク構造に対して柔軟性を保つためには、訓練セットに多様な構造が含まれている必要がある。これは依然として予測だが、次の階層の因果性を理解するのに役立つ抽象度での予測である。我々が理解していないデータに対する事後的な説明に頼らないために必要な代償は、理解をブロックごとに積み上げていくことである。
結局のところ、予測と因果モデルはスペクトルの両端に位置しており、どちらも進歩にとって極めて重要である。大規模モデルに対する機構的解釈性やBrain-Scoreのような基盤モデルの予測は、しばしば因果的な深みに欠けるが、それらは現在の因果的理解の限界を超えた問題を扱っており、より詳細な因果的説明に取り組む人々にとって、より価値のある成果を提供することができるのだ。
翻訳者より
現在のAI4Scienceの潮流において、AIを用いて何らかの分野の予測モデルを構築し、その性能が人間の科学者が構築したモデルのSOTAを超えることは、もはや珍しくなくなった。しかし、本稿が論じているように、少なくとも神経科学においては、予測は理解と同義ではない。理解とは、汎化可能な予測を行うことだけではなく、適切な抽象階層で動作機構の明確な構造的記述を与えることでもある。そして、何が「適切」で、何が「明確」かは、人間が定義するものである。この意味で、AI4Scienceは、たとえ1日で博士課程の学生の1年分の仕事量に相当する予測モデルを構築できたとしても、科学者を完全に代替することはできない。
これは、AIが構築するモデルに価値がないと言っているのではない。科学は、現在の因果的理解の限界を絶えず超えていく必要があり、その目標を達成する方法は、階層ごとに、ブロックごとに因果的な機構モデルを構築することである。AIが休みなく構築する予測モデルと、それに対応するプロセスの可視化は、科学者が因果モデルを構築するための、より豊かな素材を提供してくれるだろう。AIの役割は、あたかも顕微鏡や望遠鏡のように、科学者がより細かく、より遠くまで見ることを可能にするものなのだ。
1 https://www.sciencedirect.com/science/article/pii/S1389041723000906?via%3Dihub
2 https://doi.org/10.1073/pnas.93.23.13339
4 https://doi.org/10.1007/s11229-023-04366-1
5 https://doi.org/10.1101/639724
6 https://doi.org/10.48550/arXiv.2410.08025
7 https://doi.org/10.48550/arXiv.2502.11447