神經科學與機器學習，正在交換彼此最壞的習慣？| 萬字訪談

作者

Samuel Gershman

哈佛大學心理學教授

哈佛大學心理學系和腦科學中心的教授。他的實驗室研究學習、記憶、決策和感知的計算機制。他同時也是哈佛大學肯普納自然與人工智慧研究所的成員。著有《What Makes Us Smart: The Computational Logic of Human Cognition》。Gershman實驗室的研究旨在了解個體如何獲得關於環境的複雜結構化知識，以及這些知識如何幫助個體形成適應性行為。該實驗室結合行為學、神經影像學和計算技術來探索這些問題。

機器學習和神經科學正在雙向奔赴

就像大多數科學領域那樣，神經科學一直致力於為經驗現象尋找因果解釋。而機器學習領域歷史上則側重於構建能進行預測的系統。然而最近，兩者的界限正在逐漸模糊：神經科學越來越關注預測問題，並越來越多地採用機器學習方法；而機器學習也越來越關注因果解釋，並越來越多地借鑑神經科學的研究方法。

在討論這種角色互換的影響之前，讓我們先來看幾個例子。Brain-Score，一個根據模型預測神經反應能力來評估模型的項目，它體現了神經科學正在向預測性學科演進。該平台包含一組定量基準（如神經記錄數據）以及模型排行榜。與之並行的、受機器學習啟發的另一項努力，則是為神經科學開發「基礎模型」（foundation models），這些模型在海量神經數據上進行訓練，並以其預測能力作為檢驗標準。

▷https://www.brain-score.org/

在機器學習領域，隨著其向解釋性學科的轉型，機制可解釋性（mechanistic interpretability）研究應運而生，它的野心，旨在識別那些為預測任務而訓練的機器學習系統的內部運行機制。與早期專注於識別輸入與輸出之間關係的可解釋性研究不同（例如，解釋為何系統拒絕給某人貸款而批准給另一人），機制可解釋性研究致力於探索系統內部計算元件之間的關係。它與神經科學的血脈相連毫不掩飾，甚至妄圖在人工系統中復刻一場「連接組學」研究。正如Anthropic聯合創始人Chris Olah及其同事在2020年的一篇線上評論中所寫：

▷https://distill.pub/2020/circuits/zoom-in/

如果我們把（人工神經網絡中的）單個神經元、甚至單個權重當作值得認真研究的對象，會怎樣？如果我們願意花費數千小時追蹤每一個神經元及其連接，會怎樣？那將會呈現出怎樣一幅神經網絡的圖景？

神經科學家熱情地回應了這一號召^[1]，帶來了他們的工具、理念和解釋框架。這包括對單神經元調諧和群體水平表徵相似性的分析，以及非線性動力學和電路消融（circuit ablations）等多種研究方法。即使機器學習研究者並未明確借用神經科學的工具，他們往往也會重新發明出類似的方法。

然而，我認為機器學習轉向可解釋可能並不會讓我們更接近理解神經系統的本質；如果在神經科學中用預測完全取代解釋，我們將不得不犧牲珍貴的科學洞見。同時，機器學習中的解釋也注定會遇到與神經科學解釋相同的難題，即那些錯綜複雜的巨型系統，根本不會輕易向神經科學的常規解剖刀屈服。具有諷刺意味的是，這一點早已被機器學習研究者（以及少數哲學家）所認識，卻至今未能滲透到神經科學的學術話語體系中。

用預測代替解釋在神經科學中存在障礙

預測與解釋之間的張力是哲學、統計學和社會科學中反覆出現的主題。從歷史上看，科學一直致力於為自然現象尋找機制性的因果解釋——例如，解釋為何左旋多巴（L-DOPA）通過提高多巴胺水平能夠改善帕金森病的症狀。在系統神經科學中，因果-機制性解釋通常是「電路機制」（circuit mechanisms）。這同樣是機器學習中機制可解釋性研究的靈感來源。即通過興奮性和抑制性相互作用來解釋特定功能的神經元模組。例如，眼球位置之所以能保持穩定，其背後的因果機制便被認為是一個由遞歸連接神經元編織而成的網絡^[2]，該網絡實現了一種線吸引子（line attractor）。

神經科學中的機制性因果解釋，如同其他科學領域一樣，試圖摒棄那些可能對預測有用但屬於「虛假相關」的因素。例如，左旋多巴可能產生副作用，如不自主運動和頭痛，這些副作用與其改善帕金森症狀的效果存在相關性。機器學習演算法或許能夠從副作用「預測」出治療效果，但任何一個心智正常的人都清楚：副作用絕不是療效的「因」。如果僅針對副作用進行治療（例如服用泰諾緩解頭痛），而不去觸碰那個假設的因果機制（即多巴胺），那麼帕金森症狀不會發生改變。

儘管上述例子似乎說明預測與因果-機制性解釋之間存在顯著差異，但當前機器學習和統計學領域的觀點將二者聯繫起來。機制性的因果解釋本質上是一種「不變預測」（invariant prediction）。預測演算法或許能夠利用觀測數據中的虛假相關性，但在某些干預條件下（如上述泰諾的例子），這種預測注定會原形畢露。而因果機制則是那些即使在剔除虛假相關後依然成立的預測關係。

不變預測可能是因果性的必要條件，但它本身並不能揭示因果機制。要理解因果機制，需要對系統的組成部分進行測量和操控，以確定哪些預測關係在哪些干預條件下能夠持續成立。因此，如果神經科學家仍將解釋視為目標，那麼純粹聚焦於預測（如 Brain-Score 和神經基礎模型）將無法取代解釋性工作。

出於對系統對齊（alignment）、安全性以及排障等多方面的關切，機器學習研究者已經認識到，採用更具干預性的方法來研究機制性因果解釋具有重要意義。其中最具影響力的方法基於「電路假說」（circuit hypothesis）^[3]，即人工網絡中的特定子網絡，在暗中驅動著特定的行為。神經科學似乎為識別這類電路提供了完美的工具包：包括單神經元和群體水平的調諧分析、腦刺激以及消融/敲除技術等。然而，一些悲觀的研究^[4]結果表明，在試圖將系統還原為電路時，我們注定會撞上難以逾越的「複雜性壁壘」。在最壞情況下，要全面在電路層面理解一個神經系統，我們所需的干預次數（如沉默神經元子集）會隨著神經元數量呈指數級增長^[5]。這種計算上的不可處理性^[6]甚至對神經網絡中電路的近似理解也存在。

神經科學中另一個備受珍視的假設是：干預可用於確立功能定位。例如刺激或沉默特定神經元能以特定方式改變系統行為，研究者通常會推斷正是這些神經元，在功能上主宰了這種改變。但來自機器學習的證據^[7]表明，這種粗暴的操作，可能產生「定位錯覺」（localization illusions），即干預錯誤地將某個子網絡與特定功能關聯起來。此外，你甚至可以通過修改功能定位所識別子網絡之外的其它突觸權重^[8]，來以特定方式改變系統輸出。另一個悲觀的研究結果表明，神經科學中廣泛使用的降維技術可能炮製出「可解釋性錯覺」^[9]：即使低維表徵能夠充分概括模型在訓練數據上的行為，但一旦將模型放到新數據分布上進行測試時，這些表徵也可能失效。

這些觀察結果，理應讓那些妄圖用神經科學工具來拯救機器學習的人，驚出一身冷汗。同樣，它們也理應讓那些迷信這些工具能拯救神經科學自身的人，徹底清醒。事實上，早在近十年前，學界便已心知肚明：面對哪怕只有中等複雜度的計算電路，神經科學工具都可能束手無策^[10]。然而，這些工具仍在神經科學中持續使用，主要原因在於我們尚未設計出更好的替代方案。

最後，我們應當更積極些。我們必須承認：機器學習與神經科學之間的對話非常有價值，哪怕僅僅是因為它揭示了我們工具的局限性和假設的脆弱性。機器學習與神經科學間的持續對話，有望成為新方法的起點。

為了更廣泛地了解神經科學界如何看待預測和解釋的關係，我邀請了八位神經科學家就以下幾個問題發表見解：在神經科學中，我們能否用預測取代解釋？電路映射是否足以作為深度學習的解釋框架？它是否也足以作為神經科學自身的解釋框架？

專家觀點

Trenton Bricken（Anthropic）

▷Trenton Bricken，Anthropic對齊科學團隊的技術人員。他目前正在幫助Claude實現自動審核和檢測對準偏差的功能。

對神經科學家而言，如果能在幾天內記錄到數萬個神經元的數據，就已經謝天謝地了。這些數據通常帶有噪聲，而且大多只能從執行簡單任務的小型哺乳動物身上獲取。與此同時，像Claude和GPT這樣的大語言模型，能夠以人類水平甚至更高水平執行多種任務，擁有對世界的豐富表徵，並且可以確定性地進行研究——我們可以訪問它們的每一個神經元和神經連接。這種極其豐富的數據源，加上大語言模型日益增強的能力，推動了本文所討論的「機制可解釋性」研究。

儘管神經科學家有充分的理由去質疑LLM與生物大腦之間的鴻溝，但我認為二者存在一些重疊的核心計算原理。其中之一便是信息的表徵與存儲方式。生物大腦和大模型所學到的「事物」數量都遠遠超過其神經元或連接的數量。為了存儲這些信息（如事實、記憶、關聯等），它們必須找到某種方式將信息高效壓縮為低維表徵。研究表明，LLM以「疊加態」（superposition）編碼信息：每條信息並非存儲於單個神經元中，而是表現為多個神經元激活的模式（在神經科學中，這被稱為群體編碼）。為了逆向工程這種壓縮機制，一種名為稀疏自編碼器（sparse autoencoders）的演算法將壓縮後的低維表徵重新投影到高維空間——例如，將Claude 3 Sonnet的單個層分解為3000萬個獨特方向，每個方向對應一個可解釋的概念，如金門大橋。這是一個大模型必須解決的、大腦同樣需要面對的核心計算問題；在人工智慧領域攻克這一問題，很可能開發出有助於理解生物智能的演算法。隨著神經科學記錄技術的擴展，這些工具或許也能同樣強大地用於解碼生物的神經表徵。

Jenelle Feather 卡內基美隆大學

▷卡內基美隆大學神經科學研究所和心理學系的助理教授，她領導著計算感知實驗室。她的實驗室位於神經科學、認知科學和人工智慧的交叉領域，致力於研究感知背後的複雜神經模式。通過將計算模型與生物系統進行比較，她的研究旨在揭示感知的基本原理，找出當前人工智慧與人類經驗的差異，並改進我們對生物大腦的模型。

神經科學與機器學習有著深厚交織的歷史。近年來，這兩個領域的部分邊界甚至變得更加模糊。在這篇專欄中，Sam Gershman探討了當神經科學轉向機器學習時會發生什麼，並對預測模型日益強調神經活動的趨勢提出了質疑。雖然我同樣對盲目依賴這些「數位孿生」持謹慎態度，但我對高保真預測模型在新時代如何推進我們對神經處理的理解持更樂觀的看法。

一個預測模型，本質上就是將「計算是如何實現的」或「表徵是如何湧現的」這一抽象假設，強行具象化。模型可以針對不同分析層次構建，例如通過抽象掉生物實現細節，或嘗試顯式地將這些細節納入其中。如果模型無法預測觀測數據，那麼模型中實例化的假設就被證偽了。但如果模型成功了呢？該文指出的「虛假相關」（或「捷徑學習」）很有意義。模型預測出了正確答案，但原因卻是錯誤的。但這並非完全放棄預測模型的理由。相反，這要求我們作為科學家，嚴謹地設計實驗，嘗試「攻破」預測模型中的虛假相關。

Brain-Score和神經科學中的基礎模型已經在朝這個方向邁進，例如通過「分布外」（out-of-distribution）樣本進行測試。關鍵在於，機器學習模型可能龐大而複雜，但它並非黑箱。電腦模擬實驗提供了效率與可控性。我們可以運行大量模擬、執行精確消融、從模型本身推導目標刺激，或更改訓練數據以進行計算上受控的「飼養實驗（rearing experiment）」。通過這種方式，我們可以引導更高效的生物數據收集，並揭示現有神經表徵假設中潛在的混淆因素。

上述「數位孿生」在工程方法上具有巨大潛力。例如，可以利用預測模型開發新的、個人化的神經仿真演算法，如人工耳蝸或皮層刺激。但我們也可以直接使用模型來檢測神經表徵。我們可以合成能夠驅動特定神經元群體的刺激，或剖析不同生物模體的必要性。儘管這可能需要開發在這些複雜系統中表現更好的新工具和分析技術（正如「機制可解釋性」研究所嘗試的那樣），但計算模型為在真實生物數據上測試新分析方法提供了理論基礎。

Konrad Körding（賓夕法尼亞大學）

▷賓夕法尼亞大學知識整合（PIK）神經科學教授，也是 Neuromatch 和嚴謹社區的聯合創始人。他因在運動控制、神經數據方法和計算神經科學領域的貢獻，以及在開放科學和科學嚴謹性倡導和貢獻方面而聞名。他的研究結合了實驗方法與計算原理的應用。他主要基於規範模型的概念，特別是貝氏統計。為了預測科學家的未來成功，由此開發出一款可預測 10 年後 h 指數的應用。他的實驗工作涉及運動學習和運動控制，將這些現象與貝氏思想聯繫起來。最近，他專注於分析神經數據並獲取大規模神經數據集。他是神經科學研究範式轉變的頻繁倡導者，並發表了多篇關於深度學習在神經科學應用的論文。

我們正在目睹兩個學科交換彼此最糟糕的習慣：神經科學將基準預測誤認為理解，而機器學習則將描述機制的語言誤認為機制本身。我認為神經科學和機器學習可能混淆的警告是有意義的，而最清晰的應對方式是將預測（即使是某種程度上的不變預測）與因果推斷區分開來。

預測（即正向問題）要求找到一個函數，將測量值x映射到結果y。因果推斷（或逆向問題）則追問：被測系統中哪些部分實際影響結果，以及如何改變它們以產生更好的結果。這兩個問題都寫作y=f(x)，這有些令人遺憾，因為它們本質上是不同的問題。這不僅是目標不同，它們的幾何結構也不同。

預測不要求一一對應，因為相關變量可以相互替代。如果兩個神經元（或兩個基因）高度相關，許多模型都能做出同樣好的預測，但對「貢獻」的分配卻大相逕庭。數據通常集中在少數維度上，且在x的各維度間高度相關。這些相關性使預測更容易——我們只需在數據通常所在的「流形」（manifold）上做出良好預測即可。

因果推斷之所以困難，原因也恰恰相同。逆向求解，意味著你需要在存在相關性的情況下，區分直接效應與間接效應，這隱式或顯式地意味著要對相關結構求逆。當這個結構病態時，微小的估計誤差都可能導致推斷出的因果因素出現巨大波動。良好的預測往往恰恰標誌著那些使因果推斷變得困難的條件：即可自由相互替代的強相關性。

還有一點可以強化前文關於「因果性即不變預測」的討論。在實踐中，不變性幾乎總是局部的：我們通常在具有輕微分布偏移的相似數據集上驗證穩定性，而非進行真正的因果干預。畢竟，此類干預成本高昂。這種局部的不變性固然有用，但它主要證明的是不同情境的相似性。相比之下，因果性之所以享有盛譽，是因為它追求更大範圍的泛化能力：即在廣泛類別的干預下仍能保持穩定的關係，因為這些關係反映了系統產生效應的機制。

這給我們的現實教訓是，在談論不變性時，必須劃定它的疆域：涉及哪些干預、程度如何、基於何種假設。前文提到的複雜性壁壘強化了這一觀點。如果對神經系統全面的電路理解需要與神經元數量呈指數關係的干預次數，那麼實用的「不變預測」僅在我們實際探測過的干預空間的微小範圍內保持不變。考慮到我們在神經科學中進行實驗的方式，我們通常只對大腦進行輕微擾動，那我們可能對大腦如何響應真正新穎的刺激知之甚少。這只是一個關於局部穩定性的陳述，而非關於我們尚未實施（且可能無力實施）的干預下依然成立的真實因果結構。

John Pearson（杜克大學）

▷杜克大學神經生物學副教授，他的實驗室專注於理論和計算神經科學，並將其應用於視覺、運動控制和自然行為。

大腦並不欠我們一個解釋。面對大腦這樣的遞歸非線性動力系統，沒有任何東西暗示它必然能被我們以可推理的方式描述。然而，零散地、出人意料地，不可能之事確實發生了：我們確實時不時地對事物產生一些理解。在靈長類動物的眼動系統、果蠅的中央複合體、鳴禽的學習迴路以及許多物種的視網膜中，我們至少已經獲得了腦功能理解的初稿。所有這些都在說明：如果我們僅憑人工神經網絡的可解釋性表象來判斷，世界可能顯得比實際情況更為不可知。

但為什麼會這樣呢？讓我拋出兩個答案。首先，我們在解釋那些在顯著約束下運行的系統方面取得了相對更大的成功。這些約束可以是信息相關的（例如早期感覺系統需要有選擇地壓縮周圍世界），也可以是結構性的（如果蠅導航系統需要高度特異的輸入），但在所有情況下，神經科學拿到了一個遠比通用神經網絡簡單得多的模型，正是這種簡潔性使得實驗者和理論家能夠闡明其功能的組織原則。

第二個答案當然是演化。更具體地說，儘管突變是隨機的，但演化所探索的景觀卻是高度結構化的。神經系統必須通過基因指定的程序發育而成，這一事實確保了最終形成的連接組類型受到組織生物物理學、局部性、稀疏性和細胞類型等多重約束。這些網絡並非隨機初始化，而是經過發育過程調優的，能夠在出生時就執行基本的、往往相當複雜的行為。

因此，神經科學家發現自己處於比預期更有利的位置。是的，腦功能極其複雜，其中大部分在很長一段時間內對我們而言仍將晦澀難懂。但這種複雜性是通過微調與修飾逐步累積而成的，且必須按照發育邏輯構建，這一事實應當成為樂觀的來源。也許在這種情況下，大腦的複雜性不必像斬斷戈爾迪之結（Gordian knot，西方傳說中的物品，神諭稱能解開此結者將成為亞細亞之王）那樣一刀斬斷，我們完全可以像洋蔥一樣層層剝開。

Xaq Pitkow（卡內基美隆大學）

▷卡內基美隆大學計算神經科學副教授。他是一位計算神經科學家，致力於發展大腦的數學理論和智能系統的一般原理。主要研究分布式非線性神經計算如何利用統計演算法來指導自然情境下的行為。他開發了在合成智能體上驗證過的新型分析方法，並與實驗人員密切合作，利用真實數據檢驗理論。

本文就神經科學方法應用於機器學習，以及機器學習方法應用於神經科學的局限性提出了重要觀點。文中的兩個主要論點是：預測不能取代解釋，且解釋對於複雜系統而言是難以處理的。我想提供一個更為樂觀的反論點：一旦我們認識到解釋真正提供的是什麼——泛化能力，文中提到的兩個論點所帶來的問題就會迎刃而解。

機制性的因果解釋，其根本價值不在於它將系統分解為組成部分，而在於它使我們能夠在新條件下進行預測——跨越干預、分布偏移和不同任務類別。這包括前文提到的不變預測。但如果解釋的價值在於其泛化能力，那麼預測與解釋之間根本不存在張力：解釋正是使預測得以泛化的關鍵。前文討論的定位錯覺和可解釋性錯覺確實存在，但它們反映的是未能在足夠嚴格的泛化條件下進行測試，從而未能暴露出錯誤的結構。

通過泛化視角重新界定因果解釋的嘗試，也能回應關於神經的電路解釋所遇到的複雜性壁壘。該文引用了最壞情況分析，但分析中的複雜性上限假設任何神經電路都是可能的。真實的神經系統，無論是生物還是人工的，都具有豐富的結構，如稀疏連接和低階交互，將這些約束作為預設條件，可使對神經系統的電路層面解釋比最壞情況所暗示的更容易處理。退一萬步講，無論對神經系統的精確電路還原是否可行，它都不是神經科學對應解釋產生影響的唯一層次。恰當的解釋層次，是那個能在我們關注的領域內提供充分泛化能力的層次。

基礎模型提供了一個有趣的例子。它們解釋了什麼嗎？許多機制上截然不同的網絡可以在自然任務上產生相同的輸入-輸出行為，甚至可以共享潛在的動力學特性，這使得即使對於某些泛化任務而言，精確的電路還原也並非必要（當然，對於模型中不存在的電路元件的干預泛化除外）。許多解釋性約束可以在沒有詳細機制的情況下依然有效，特別是在表徵層面或對資源與行為的規範性約束層面。這些約束仍然可以是因果性的，至少可視為亞里斯多德筆下的「目的因」（telos，即目的）。基礎模型提供的是真正的解釋：它們能夠泛化、可被證偽，並告訴我們系統為何有效。它們只是不是電路圖。在領域相關任務內具有功能等效性，相比完整因果機制屬於更弱的標準，但事實證明，對於許多關於複雜系統的問題而言，這正是恰當的分析層次。

因此，挑戰不在於在預測與解釋之間做選擇，而在於識別那個能在科學相關領域內實現泛化的描述層次，並設計足夠強有力的檢驗來論證其泛化能力。這正是神經科學與機器學習互動最具價值之處。

Gemma Roig（法蘭克福歌德大學）

▷法蘭克福歌德大學計算機科學系的教授。hessian.AI 成員，並隸屬於麻省理工學院腦、心智與機器研究中心。

神經科學與人工智慧之間日益增強的融合，已將神經科學推向一個以預測為主的學科，從而引發了關於解釋與因果性的問題。現代深度學習模型如今被廣泛用於預測腦活動，並在人工系統與生物系統之間比較表徵，尤其在感覺和語言領域。將模型約束於生物數據，預期能系統性地提升任務性能與模型魯棒性，但這尚未完全實現。相反，人工智慧領域已在很大程度上將可解釋的努力方向轉向開發事後分析工具（其中許多受神經科學啟發），以探究那些原本不透明模型的內部運作機制。

儘管人工智慧模型高度複雜，但它們仍然是計算抽象，省略了生物神經系統的許多結構與動力學特性。表徵對齊和預測準確性雖具信息價值，但不足以確立機制性或因果性解釋。例如，可解釋性工具揭示的表徵對齊能帶來可觀的改進，其源頭可能是間接的訓練動力學或模型架構，而非這些工具被認為能夠揭示的機制。

儘管存在這些局限，人工智慧模型的簡化性與可控性構成了方法論上的優勢。與生物系統不同，人工智慧模型可以直接被干預：組件可以被移除、修改或重新訓練，學習動態可以被系統性地改變。此類干預使得受控的因果測試和混淆因素的系統性識別成為可能，從而能夠評估對觀測行為或表徵的替代性解釋。儘管這些操作可能無法直接映射到生物系統，但它們可以為因果假設的構建提供信息，而這些假設在神經科學中往往難以直接檢驗。當前神經科學對預測的強調是合理的，因為它提供了必要的經驗約束。強大的預測性能為解釋提供了最低限度的經驗基礎。雖然預測本身並不能確立機制，但沒有它，關於機制的主張將缺乏堅實基礎。

未來的進展需要將可解釋性方法與顯式的機制分析相結合，而非將對齊或預測視為終點。研究不應僅聚焦於預測和表徵對齊，而應針對特定認知功能，深入探究模型實現該功能的內部電路、轉換過程和學習到的結構。

Naomi Saphra（哈佛大學）

▷哈佛大學肯普納研究所的研究員，並將於2026年入職波士頓大學任教。她致力於通過實證研究理解語言模型的訓練過程：模型何時學會編碼語言模式或其他結構？這又能告訴我們模型的工作原理和原因嗎？我們能否將有用的歸納偏差編碼到訓練過程中？近期，她開始與自然科學家和社會科學家合作，利用可解釋性來理解我們周圍的世界。

預測可以展示我們的理解，但前提是我們真正理解用於做出這些預測的系統。如果我們從觀測數據中訓練一個黑箱模型，並發現它能成功預測行為，那麼我們擁有的只是第二個黑箱模型——這與我們一無所知的起點相比幾乎毫無改進。然而，如果我們能夠基於對計算主體構建的直觀仿真，再用這個仿真做出預測，那麼即使這些直觀仿真未能反映主體的因果機制，它們（在某種程度上）也是正確的。我們的直觀仿真已在計算層面整體性地描述了計算主體，即便未涉及其組件實現。

另一方面，即使我們成功識別了因果機制，我們可能仍然與之前一樣毫無進展，正如本文通過強調可解釋性錯覺所指出的那樣。如果人類無法理解產生機制的結構，或者我們對干預如何生效的解釋存在缺陷，那麼新加的解釋不過是添加的第二個黑箱，而非增進對計算主體的理解。

無論是大腦、大語言模型還是其他任何過程，什麼才算理解一個系統了？關鍵不在於我們的描述是因果性的還是預測性的，而在於描述本身是否被理解。

壞消息是，這一屬性本質上是主觀的。有些人可能直觀地理解一個系統的精確數學描述，而另一些人則只能憑信念接受這種直觀的存在。因此，一個人不可能確定地知道一個新的描述是否推進了人類的理解，除非它首先推進了其個人的理解。

然而，即使人類無法理解包含十億參數的模擬，也有好消息。即使黑箱描述不能直接增進我們的理解，它也可能允許我們使用原始主體所不具備的新工具。基於這一假設，任何預測性描述都有潛力推進我們的理解。問題依然存在：什麼樣的描述能增進我們的理解？

James Whittington（牛津大學）

▷牛津大學的首席研究員，領導著一個研究人工智慧和神經科學基礎的團隊。他擁有牛津大學的物理學、醫學和神經科學學位。他曾在人工智慧初創公司和大型科技公司工作，目前為多家人工智慧科技公司提供諮詢服務。他是Thinking About Thinking非營利組織的聯合創始人，負責組織該組織的科學議程以及每年舉辦的多個峰會和會議的議程安排。

人工神經網絡極其強大但難以解釋，這與它們的生物對應物（大腦）非常相似。然而，由於它們在從輸入x預測輸出y方面的高效性，我們正在神經科學的許多數據上進入一種「閉嘴，只做訓練」的範式（這與量子物理學中「閉嘴，只做計算」的心態相呼應）。本文正確地質疑了這種以可理解性換取預測能力的權衡。

不可解釋的模型與過去幾十年間的傳統神經科學模型形成了鮮明對比，那時的模型大多是手工構建且具有因果性的。貝氏模型就是這種方法的典範：根據因果模型y=f(z)，從數據y中推斷變量z的分布。因果性思維不僅更具可解釋性，而且能自然地處理「分布外」數據，而這正是真正理解的標誌。

這正是預測模型的癥結所在。沒有因果模型，成功的預測可能依賴於與真正因果變量相關的變量，而這會阻礙泛化。閱讀阿嘉莎·克莉絲蒂的小說可能讓你（或一個大語言模型）擅長預測她另一部小說中的兇手，因為你理解了她的寫作風格，但這並不會讓你（或一個大語言模型）成為偵探，因為阿嘉莎·克莉絲蒂很可能並未策劃現實中的謀殺案。

不變預測嘗試通過識別跨情境持續存在的預測關係（謀殺的因果邏輯），並忽略那些變化的關係（作者的寫作風格）來緩解這一問題。然而，收集足夠多情境的數據以確定相關性是否虛假並非易事，而且即便能夠收集足夠多的數據，神經網絡學到的因果模型很可能也不適用於可解釋性技術。

元學習只是將「分布外」問題提升了一個層次：模型在不同任務結構上保持靈活性要求訓練集中包含多樣化的結構。這仍然是預測，但處於一個有助於理解下一層次因果關係的抽象水平。不依賴對我們不理解的數據進行事後解釋，所要付出的代價便是逐塊構建理解。

最終，預測和因果模型處於光譜的兩端，二者對進步都至關重要。儘管大模型上的機制可解釋性或 Brain-Score 等基礎模型的預測往往缺乏因果深度，但它們處理的是超出當前因果理解極限的問題，這能夠為那些從事更細緻因果解釋工作的人提供更有價值的成果。

譯者的話

在當前AI4Science的浪潮中，用AI為某某學科構建預測模型，性能超越人類科學家構建的模型SOTA已屢見不鮮。然而正如該文所論述，至少在神經科學領域，預測不等於理解。理解不止是做出可泛化的預測，還包括對運行機制在合適的抽象層級給出清晰的結構描述，而何為合適，什麼才算清晰是人定義的。從這個意義上來看，AI4Science即使在構建預測模型上1天完成一個博士生一年的工作量，也不能完全的取代科學家。

這麼說不是說AI構建的模型沒有價值，科學需要不斷超越當前因果理解的極限，而實現這一目標的方法是逐層次地，分塊地構建因果性的機制模型。AI孜孜不倦構建的理解預測模型及對應的過程可視化，將給科學家提供更豐富的素材來構建因果模型。AI的作用如同顯微鏡/望遠鏡，讓科學家能夠看得更細/更遠。

https://www.sciencedirect.com/science/article/pii/S1389041723000906?via%3Dihub

https://doi.org/10.1073/pnas.93.23.13339

https://proceedings.neurips.cc/paper_files/paper/2024/file/abccb8a90b30d45b948360ba41f5a20f-Paper-Conference.pdf

https://doi.org/10.1007/s11229-023-04366-1

https://doi.org/10.1101/639724

https://doi.org/10.48550/arXiv.2410.08025

https://doi.org/10.48550/arXiv.2502.11447

https://proceedings.neurips.cc/paper_files/paper/2023/hash/3927bbdcf0e8d1fa8aa23c26f358a281-Abstract-Conference.html

https://doi.org/10.48550/arXiv.2312.03656

https://doi.org/10.1371/journal.pcbi.1005268

神經科學與機器學習，正在交換彼此最壞的習慣？| 萬字訪談

相關文章推薦

分享網址