AI 不需要理解世界，但我們需要理解 AI

文｜胡泳

　　北京大學新聞與傳播學院教授

戴維·溫伯格在《知識的邊界》一書中對網絡化知識的認識曾為我們打開知識的新疆界[1]，而他對人工智慧時代的知識的見解，可以歸納如下：

人類努力獲得對複雜系統的理解。然而，我們基於「人類的理解」所作的預測並不像人工智慧那樣準確，雖然人工智慧並不真正理解任何東西。
不過，鑑於人工智慧的預測比基於人類理解的預測更準確，我們應該放棄對理解的追求，而專注於建立能夠為我們作決定的人工智慧。
將主導權交給預測性人工智慧，我們將迎來人類進化的下一個階段[2]。

透過大模型及其背後的生成式人工智慧，以及現在方興未艾的代理式人工智慧，我們其實已經邁入了溫伯格所稱的「人類進化的下一個階段」。

利用統計模型、迴歸分析和深度學習技術，預測性人工智慧旨在以高精度預測未來的結果或趨勢，可以應用於眾多行業之中，如醫療保健、金融、行銷和供應鏈管理、法律等，作出數據驅動的決策、最佳化流程並改善結果。

但正如溫伯格所看到的，理解是一個大問題。隨著AI系統在各個領域的決策過程中變得越來越重要，可解釋人工智慧的要求應運而生。

XAI是一個探索如何使AI系統更可解釋的領域，幫助使用者理解AI預測和決策背後的推理過程。這使得它與傳統的「黑箱」AI模型不同，後者可能提供準確的預測或分類，但沒有提供關於如何得出這些結論的洞察。

毋庸置疑，人工智慧的未來關鍵在於，我們是應該放棄理解，還是致力於建立可以理解的人工智慧？

深度學習：極其黑暗的黑箱

隨著技術的發展，我們可能很快就會跨越一些門檻，而越過這些門檻，使用人工智慧就需要信仰的飛躍。當然，我們人類也並不能夠總是真正解釋我們的思維過程，但我們找到了直覺上信任和衡量人的方法。

換言之，人類建立信任，不依賴於可計算的透明性，而依賴於一種具身直覺的理解：我們透過陪伴來判斷善意，透過回應來確認存在，透過關係來衡量責任。對於那些以不同於人類的方式思考和決策的機器來說，這是否也是可能的？

我們以前從未製造過以其創造者不理解的方式運作的機器。過去的工具——從鐵鎚到蒸汽機、從太空船到超級電腦——儘管精巧複雜，但仍服從因果、遵循邏輯，其工作方式皆在人的掌控與理解之內。我們知道它們為何而動、因何而停。

然而，當深度學習、語言模型與自組織演算法誕生後，局面發生了變化：歷史上第一次，我們擁有了比我們更難以理解的創造物。

這些機器在高維空間中「思考」，擁有我們無法直觀感知的表徵與路徑。它們給出的答案有效，但解釋缺席；它們的判斷精準，卻不知其因。我們能指望與這些不可預測和不可捉摸的智慧機器，達成多好的溝通和相處？這些問題將把我們帶向人工智慧研究的前沿。

人工智慧並不一向這樣。從一開始，對於人工智慧的可理解性，或可解釋性，就存在兩派觀點。

許多人認為，建造根據規則和邏輯進行推理的機器是最有意義的，這樣將使它們的內部運作對任何願意檢查某些程式碼的人來說是透明的。

其他人則認為，如果機器從生物學中獲得靈感，並透過觀察和體驗來學習，那麼智慧將更容易出現。這意味著要把電腦程式設計轉給機器。與其由程式設計師編寫命令來解決一個問題，不如由程式根據實例數據和所需輸出生成自己的演算法。後來演變成今天最強大的人工智慧系統的機器學習技術，遵循的正是後一種路徑：機器基本上是自己寫程式。

任何機器學習技術的工作原理本質上比手工編碼的系統更不透明，即使對電腦科學家來說也是如此。這並不是說，所有未來的人工智慧技術都將同樣不可知。但就其性質而言，深度學習是一個特別黑暗的黑箱。

我們把海量數據投入其中，大語言模型便生成回答、判斷、偏好等等，但我們不知道它是如何抵達這些結論的。它的路徑，不可追溯；它的「規律」，不可求證；它的偏差，不可預警。它像一個沉默的神諭者：我們依賴它，卻無法質問它；我們服從它，卻無法要求它承擔責任。

於是，技術不再只是工具，而成了一種不透明的權力。它是制度化的行動者，在社會中行使權力。這種權力不通過暴力顯現，而透過規則、標準、演算法邏輯潛移默化地滲透人類生活。

一旦面對這樣的黑箱，就產生了人對系統的信任問題。溫伯格所舉的經典例子，是一個名為「深度患者」的醫療學習系統。紐約某醫學院的研究人員向它輸入整整70萬份病歷，並讓它不受限制地找出它能做的事情。結果，它作出的診斷和預測遠遠超出了人類醫生的能力。雖然該「黑箱」診斷系統無法解釋它給出的預測，但在某些情況下，它的確比人類醫生更準確。

這就是深度學習，會帶來人類從未考慮過或甚至無法想像的發現。溫伯格說，「深度患者」的教訓是，深度學習系統不必將世界簡化為人類能夠理解的東西。

問題在於，溫伯格沒有深入處理人對人工智慧的信任。比如，即便「深度患者」的診斷比人類醫生更準確，但要是它無法解釋自己給出的判斷，醫生和患者會對它表示信任嗎？

AI醫生值得信任，需要滿足三個條件。

第一是可解釋性：患者和醫護人員可以理解決策邏輯，因為信任不僅基於結果，更基於過程的透明與可理解。
第二是可究責性：錯誤和風險能明確歸屬，責任可以追溯並落實。
第三是倫理嵌入：演算法設計中考慮患者尊嚴、脆弱性和權利。

如果患者只能被動接受結果，而醫生的角色，從指導者、守護者，逐漸轉變為演算法的執行者，就會產生倫理責任問題。患者的主動權被剝奪，醫生的判斷空間被壓縮，錯誤的診斷不再容易追溯到人，而演算法又無法承擔倫理責任；最後受傷害的，仍是患者。

這說明，技術越強大，越需要明確它的權力與邊界，否則信任就只是一種表象。

人類信任：難以經受失敗的打擊

人類的信任往往基於我們對其他人如何思考的理解，以及對這些思考的可靠性的經驗了解。這有助於創造一種心理安全感。

而AI對於大多數人來說，仍然是相當新穎和陌生的。它使用複雜的分析系統進行決策，以識別潛在的隱藏模式和來自大量數據的微弱訊號。

即使可以在技術上解釋，AI的決策過程對於大多數人來說通常都是難以理解的。更何況目前的人工智慧發展是在朝著不可理解的方向加速前進。同自己不明白的事情互動會引起焦慮，並使我們感覺我們失去了控制。

晶片製造商輝達推出的自駕車，看上去與其他自駕車沒有什麼不同，但它實際上迥異於谷歌、特斯拉或通用汽車所展示的任何東西，而是顯示了人工智慧的崛起。輝達的汽車並不遵循工程師或程式設計師提供的任何一條指令。相反，它完全依靠一種演算法，這種演算法透過觀察人類的行為而學會了自己駕駛。

讓一輛車以這種方式行駛是一項令人印象深刻的壯舉。但它也有點令人不安，因為並不完全清楚汽車的決定是如何做出的。來自車輛感測器的資訊直接進入一個巨大的人工神經元網路，該網路處理數據，然後提供操作方向盤、煞車和其他系統所需的命令。其結果似乎與你所期望的人類司機的反應一致。

但是，如果有一天它做出一些出乎意料的事情——比如撞上了一棵樹，或者在綠燈前停止不動呢？按照現在的情況，可能很難找出它這樣做的原因。該系統是如此複雜，甚至設計它的工程師也難以分離出任何單一行為的原因。而且你也不能向它提問：沒有辦法來設計一個系統，使它總是能夠解釋為什麼它做那些事。

除非我們找到方法，讓深度學習等技術對其創造者更容易理解，對使用者更負責任，否則，將很難預測何時可能出現失敗——而失敗是不可避免的。

麻省理工學院研究機器學習應用的教授托米·賈科拉說：

「這是一個已經凸顯意義的問題，而且在未來它將變得更有意義。無論是投資決策、醫療決策，還是可能的軍事決策，你都不希望僅僅依靠『黑箱』方法。[3]」

賈科拉對AI的一般局限性和常見失敗提出了重要見解，尤其關注AI在實際應用中的問題，以及其在複雜場景中無法考慮所有變量的局限性。其中包括：

AI的誤用——賈科拉指出，AI並非因為技術本身存在缺陷而失敗，而是因為它常常被用於不適合解決的問題。錯誤的應用場景是AI失敗的主要原因之一。

數據不完整——機器學習專案中，處理不完整的數據來源是一大挑戰。這是許多AI專案失敗的常見原因。

模型局限性——他強調當前AI模型的固有局限性。例如，即使神經網路的微小變化，也可能導致其無法捕捉所有必要資訊，從而在複雜的現實場景中產生不可預測或錯誤的行為。

系統穩健性——賈科拉的工作強調建構穩健且值得信賴的機器學習系統的重要性，這對於防止公眾信任流失尤其關鍵，特別是在醫療等關鍵應用領域。

賈科拉的見解常被引用於討論為何許多企業AI專案或試點計畫未能產生預期效果，有研究顯示失敗率可能高達95%。因此，要想讓AI真正發揮價值，企業不僅要最佳化演算法，更要關注信任建設和倫理設計。

這就引申出了可信任AI問題。「可信任 AI」是人工智慧倫理與治理領域的核心概念，指的是在技術、法律、倫理和社會層面都值得信賴的AI系統。它不僅追求效能和效率，更強調對人類價值、權利和社會責任的尊重。

如果人工智慧系統在我們的日常生活中越來越廣泛地應用於各種服務和產品，那麼就必須從使用者角度看待對AI信任與否的重要性。如果AI驅動的系統在人類活動的重要層面成為代理或半代理工具，那麼我們就不可能不憂慮，這些工具在何等程度上，會影響到人類的思維、決策和行為。

信任與不信任AI，作為一種調節器，可能顯著控制人工智慧技術擴散的程度。當使用者、機構或社會群體對AI系統保持信任時，他們更願意採納、依賴和投入資源，從而加速技術應用的普及。反之，不信任則會抑制採納率，使潛在的技術優勢無法轉化為現實效益。

這種調節效應不僅是技術層面的，也深刻涉及倫理與社會心理層面。信任建立在可靠性與穩健性、可解釋性與透明度、公平性與無偏私、隱私與安全、責任可追溯、倫理與法律合規等因素之上，而一旦這些基礎缺失，AI的高準確率或高效率也難以贏得使用者的認可。

由此可見，可信任AI不僅僅是技術問題，它是技術、倫理、社會與法律的綜合實踐。一個AI系統即便演算法先進，如果不可靠、不透明、偏見嚴重或無法承擔責任，就不能稱為可信任AI。

摧毀信任，也就摧毀了文明

所以，理解，還是不理解，絕非可以輕易得出結論，因為我們投入的賭注太大了。正如人類行為的許多方面也無法詳細解釋一樣，也許人工智慧也不可能解釋它所做的一切。

或許這就是智力性質的一個特點：它只有一部分被暴露在理性解釋之下。而另外一些是本能的，或潛意識的，或不可捉摸的。

如果是這樣，那麼在某個階段，我們可能不得不簡單地相信人工智慧的判斷（這是溫伯格所主張的），或者乾脆不使用人工智慧。相信或者不使用，這樣的判斷將不得不納入社會智慧。

正如社會建立在預期行為的契約之上，我們將需要設計和使用人工智慧系統來尊重和適應我們的社會規範。如果我們要創造機器人坦克和其他殺人機器，重要的是它們的決策必須與我們的道德判斷相一致。

哲學家丹尼爾·丹尼特對可解釋性持很審慎的態度。他說：

「如果我們要使用這些機器並依賴它們，那麼讓我們儘可能堅定地掌握它們是如何和為什麼給我們答案的。但是，由於可能沒有完美的答案，我們應該對人工智慧的解釋持謹慎態度，就像人類對彼此的解釋一樣——無論機器看起來多麼聰明。而如果它不能比我們更好地解釋它在做什麼，那麼就不要相信它。[4]」

審慎的原因在於，人類的未來，也許並不關乎某種超級智慧的接管，而是人工智慧的普遍使用可能對文明構成存在性威脅，這種危險根源於人性的脆弱性——不知道自己知道什麼，也不知道該信任誰。

比起擔心人工智慧對工作的影響，我們更應該擔心人工智慧對信任的影響，因為信任乃是文明最重要的基石之一。

我們花費越來越多的時間在數位環境中，進化並沒有為我們做好充分準備。與此同時，人工智慧很可能會進化以實現自我複製，因為進化並不僅限於生物有機體。

在這樣的兩極發展中，雖然我們贊成人類透過使用醫學中的專家系統或導航中的GPS等提高效率，但我們也必須看到一個危險，那就是機器在感知、記憶和演算法計算等基本任務中所占比例日益增加，而人們可能會傾向於將這些系統人格化，賦予它們並不具備的智力能力。

正如丹尼特所擔心的，人們可能會誤解本質上是「寄生」的AI系統，而不是建設性地利用它們來挑戰並發展人類使用者的理解能力[5]。對人工智慧的正確認識，不應是「替代人類」，而是「拓展人的可能」。

機器學習的興起是人類歷史上最重大的變革之一，越來越多的機器學習模型將成為我們的知識庫，就像現在的圖書館和人類的頭腦一樣。

然而，機器學習模型裡沒有「知識」，它們只是對數據模式的統計擬合。演算法可以識別關聯、預測趨勢，但並不理解因果關係、背景意義或倫理後果。它不會像人類一樣反思自己的判斷，也不會承擔責任。

因此，即便模型輸出準確，它也無法提供可解釋的理由，也無法回應使用者的進一步質問。模型的「智慧」只是表象，真正的信任仍需建立在人對人之間的理解、回應和承擔之上。

人類的認知不僅是模式識別，更包括自我反思、道德感知與情感回應。當演算法把我們置於脆弱、依賴與無助的境地，我們需要重新思考知識的性質和用途，甚至重新思考作為能夠了解自己世界的生物，我們到底是誰。

參考文獻：

[1]《知識的邊界》，戴維•溫伯格著, 胡泳、高美譯，山西人民出版社，2014年。

[2] Weinberger, David (2019). Everyday Chaos: Technology, Complexity, and How We’re Thriving in a New World of Possibility. Harvard Business Review Press.

[3] Knight, Will (Apr 11, 2017). “The Dark Secret at the Heart of AI.” MIT Technology Review, https://www.technologyreview.com/2017/04/11/5113/the-dark-secret-at-the-heart-of-ai/.

[4] Knight, Will (Apr 11, 2017). “The Dark Secret at the Heart of AI.” MIT Technology Review, https://www.technologyreview.com/2017/04/11/5113/the-dark-secret-at-the-heart-of-ai/.

[5] Dennett, Daniel C. (2017). From Bacteria to Bach and Back: The Evolution of Minds. Penguin, 402-3.

AI 不需要理解世界，但我們需要理解 AI

相關文章推薦

分享網址