就在剛才,一顆震撼彈投進了全球醫療圈。
哈佛大學醫學院聯合貝斯以色列女執事醫療中心(Beth Israel Deaconess Medical Center),將一項令人坐立難安的研究結果發表在《Science》期刊上。
在急診室的真實檢傷分類場景中,OpenAI的o1推理模型診斷準確率達到67%,而兩位經驗豐富的內科主治醫師,一位55%,另一位50%。
AI贏了。
不是在做題,也不是在考試,而是在真槍實彈的急診室裡。
更傷人的數據還在後頭——在制定治療管理方案的測試中,o1拿了89%,而人類醫師使用傳統資源輔助後,中位數只有34%。
差距不是一星半點,是兩倍多。
這不是一家AI公司的自吹自擂,而是哈佛醫學院主導、頂尖學術期刊背書、雙盲審查確認的結果。
研究論文的通訊作者、哈佛醫學院AI實驗室負責人Arjun Manrai說了一句意味深長的話:「我們用幾乎所有基準測試了這個AI模型,它超越了此前所有模型和醫師的基準線。」
一個時代的裂縫,就這麼被撕開了。
76名真實患者,零預處理,雙盲對決
這項研究最硬核的地方在於:它不是拿精心整理的教科書病例去考AI,而是直接把急診室裡最原始、最混亂的電子病歷丟給了機器。
研究團隊從貝斯以色列急診科隨機選取了76名真實患者,在三個關鍵診斷節點進行對比——急診檢傷分類(患者才剛進門)、急診醫師首次接診、以及收治入院或進加護病房。
每個節點,兩位內科主治醫師和OpenAI的o1、4o模型同時給出鑑別診斷,每一方最多列出5個可能診斷。
關鍵細節是:研究人員對數據零預處理。
論文明確寫道,AI模型接收到的資訊和醫師看到的電子病歷完全一致——那些凌亂、缺失、充滿雜訊的真實臨床數據。
然後,由另外兩名主治醫師進行「盲評」——他們不知道哪個診斷來自人類、哪個來自AI。
盲評結果顯示,評審醫師幾乎完全無法分辨診斷來源:一位醫師猜對AI/人類的準確率僅15.2%(有83.6%的時候選了「分不清」),另一位更誇張,只有3.1%(94.4%選「分不清」)。
換句話說,AI寫的診斷,連資深醫師都看不出是機器產出的。
在如此嚴苛的條件下,o1模型在急診檢傷分類階段——資訊最少、時間最緊迫、決策最關鍵的環節——給出了67.1%的準確率(包含精確診斷或非常接近的診斷)。
兩位人類醫師分別是55.3%和50.0%。
隨著資訊逐漸增多,所有人的表現都在提升:到入院階段,o1準確率升至81.6%,醫師分別為78.9%和69.7%。
但差距始終存在,而且在資訊最匱乏的初始階段差距最大。
這恰恰是最可怕的發現——急診最要命的就是「前幾分鐘」,患者才剛被推進門,資訊碎片化,生死攸關,醫師需要在極度不確定中做出判斷。
而恰恰在這個環節,AI表現最突出。
急診醫師不滿:拿內科醫師跟AI比,能代表什麼?
論文發布後,一位名叫Kristen Panthagani的急診科醫師在社群媒體上直接開砲:這是一個「被過度炒作的有趣研究」。
她的核心質疑是:研究中和AI對比的是內科主治醫師,不是急診科醫師。
「如果我們要拿AI和醫師的臨床能力做比較,至少應該拿同一個專科的醫師來比。我不會驚訝於一個大型語言模型能在神經外科的專科考試中打敗皮膚科醫師,但這並不能代表什麼。」
她還指出了急診醫學的本質邏輯:「作為一名第一次看到患者的急診醫師,我的首要目標不是猜出最終診斷。我的首要目標是判斷你是否有一種可能會殺死你的疾病。」
這個反駁有力道嗎?
有。但也需要注意,研究論文本身已經承認了這項局限性,而且論文的核心論點從來不是「AI可以替代急診醫師」,而是「AI在有限資訊下的推理能力已經達到值得臨床試驗的水準」。
急診醫師在現場做的遠不止「猜病名」——他們要看患者的面色、聽呼吸的聲音、感受疼痛的程度、判斷生命徵象的微妙變化。
這些微妙的非語言訊號,有時候比任何檢驗指標都重要。
一個經驗豐富的急診醫師走進病房,掃一眼患者,可能就已經做出了80%的判斷——這種能力叫「臨床直覺」(clinical gestalt),它來自數以萬計的真實接診經驗,目前沒有任何AI能夠複製。
Manrai自己也承認,團隊正在研究AI處理影像和其他非文本訊號的能力,「看到了快速進步的結果」,但距離臨床部署還有很長的路。
辛頓的「預言」教訓:放射科醫師沒失業,反而更忙了
說到AI取代醫生這個話題,不得不提一個經典的「打臉」案例。
2016年,AI教父、諾貝爾獎得主Geoffrey Hinton說了一句震動醫學界的話:人們現在就應該停止培訓放射科醫生了。深度學習在五年內就會比放射科醫生做得更好,這完全是顯而易見的。
這句話當年嚇退了不少準備選擇放射科的醫學生。整個2010年代後期,媒體上鋪天蓋地都是「放射科即將消亡」的文章。
十年過去了。
梅約診所的放射科醫師團隊從2016年至今增長了55%,達到400人。美國放射學會預測,未來30年放射科醫師供給還將增長26%。
全球最大的放射科醫師短缺正在發生——不是因為AI搶走了工作,而是因為AI讓影像檢查變得更便捷,反而催生了更多需求。
Hinton本人後來也承認自己「說得太過頭了」。
他修正了預測:未來的醫學影像判讀將由「AI和放射科醫師的組合」來完成,AI會讓放射科醫師「效率大幅提高,同時提升準確率」。
這個故事裡有一個深刻的經濟學原理——傑文斯悖論:當一項技術讓某種資源的使用更高效時,這種資源的總需求反而可能大幅增加。
影像診斷變便宜、變快了,於是醫師開了更多檢查,放射科醫師反而更忙了。
哈佛這項新研究的作者們顯然吸取了辛頓的教訓。
論文通訊作者Manrai在新聞發布會上明確說:「我們的發現並不意味著AI取代醫生,儘管有些賣AI醫療產品的公司可能會這麼說。」
共同通訊作者、貝斯以色列AI項目負責人Adam Rodman則更直白:「目前AI診斷沒有任何正式的問責框架。患者想要的是人來引導他們度過生死攸關的決策,引導他們面對艱難的治療選擇。」
不是「AI贏了」,而是醫療決策權在重組
據美國醫學會(AMA)2026年調查,超過80%的美國醫師已經在執業中使用AI——是2023年的兩倍。
17%的醫師使用AI進行「輔助診斷」。
2025年的一項Elsevier研究發現,20%的臨床醫師已經在向大型語言模型尋求「第二意見」。
哈佛這項研究證明,AI在資訊最匱乏、決策最緊迫的急診場景中,推理能力已經超越了人類醫師。
三個數據疊加在一起,指向一個清晰的趨勢:醫療決策的權力結構正在發生根本性的重組。
過去的急診室模式是:患者進來→醫師判斷→做出決策。
未來的模式可能變成:患者進來→AI快速掃描電子病歷給出初步判斷→醫師結合臨床觀察和AI建議做出決策→患者參與討論治療方案。
研究作者Rodman預測,未來會出現三種分化:一部分任務人類持續做得更好,一部分任務AI持續做得更好,還有一部分任務需要人機協作增強。
這就是研究者所說的「醫師-患者-AI」三方協作模式。
聽起來很像自動駕駛。
Level 2等級——AI輔助人類決策;Level 3等級——AI主導、人類監督;Level 4等級——特定場景全自動。
目前AI在醫療領域大概處在Level 2到Level 3之間的階段:它已經能在「文字世界」裡給出超越人類的判斷,但在真實的、多模態的臨床場景中,它還需要人類的眼睛、耳朵和直覺來補位。
AI誤診了,誰負責?
在所有討論中,有一個房間裡的大象無人敢正面觸碰:AI出錯了,誰來承擔責任?
Rodman在接受《衛報》採訪時坦言:目前AI診斷沒有任何正式的問責框架。
如果一名醫師誤診了,有成熟的醫療糾紛處理體系——患者可以投訴、可以訴訟、醫師面臨執照風險。
但如果AI給出了錯誤建議,醫師採納了,患者受到了傷害——是算醫師的責任?AI公司的責任?醫院的責任?還是三方共同承擔?
更複雜的場景是:如果AI給出了正確建議,但醫師否決了AI的判斷、堅持自己的錯誤診斷,導致患者延誤治療——此時醫師要不要為「忽視AI建議」承擔額外責任?
還有一個更隱蔽的風險:過度依賴。
當醫師習慣了AI給出的高準確率判斷,他們的獨立思考能力會不會退化?就像GPS讓很多人喪失了自主導航能力一樣,AI輔助診斷是否會讓醫師的臨床推理「肌肉」逐漸萎縮?
這些問題,目前沒有任何國家有清楚的答案。
參考資料:
https://www.science.org/doi/10.1126/science.adz4433
https://www.harvardmagazine.com/ai/ai-outperforms-doctors-diagnosis-harvard-study