ハーバード大学のScience誌に衝撃論文：AIの救急診断精度は67%で、ベテラン主治医を超える！しかし医師の代替はまだ先

ハーバード大学医学部とベス・イスラエル・ディーコネス医療センター（Beth Israel Deaconess Medical Center）が、医療界に激震をもたらす研究結果をScience誌に発表しました。

研究発表の画像

実際の救急外来におけるトリアージシナリオにおいて、OpenAIの推論モデル「o1」は67%の診断精度を達成しました。一方で、経験豊富な内科主治医2名の精度は、それぞれ55%と50%でした。

AIが勝利したのです。

これは机上のテストや試験ではなく、まさに実戦さながらの救急外来での出来事です。

AIと医師の比較データ

さらに厳しいデータが続きます。治療管理計画の立案テストでは、o1は89%のスコアを獲得したのに対し、従来のリソースを使用した人間の医師の中央値はわずか34%でした。

治療計画のスコア比較

その差はわずかではなく、2倍以上です。

これはAI企業の自画自賛ではなく、ハーバード大学医学部が主導し、最高峰の学術誌が認め、二重盲検審査によって確認された結果です。

研究論文の責任著者であり、ハーバード大学医学部のAIラボ責任者であるArjun Manrai氏は、意味深長なコメントを残しています。「我々は、このAIモデルをほぼすべてのベンチマークでテストしました。これは、これまでのすべてのモデルと医師のベースラインを凌駕しています。」

Arjun Manrai博士の写真

一つの時代に、こうして亀裂が生じたのです。

区切り線

76名の実患者、データ前処理なし、二重盲検法による対決

この研究の最も妥協のない点は以下の通りです。それは、入念に整理された教科書的な症例でAIをテストしたのではなく、救急外来の最も生々しく、混乱した電子カルテをそのまま機械に投入したことです。

研究チームは、ベス・イスラエル救急科から無作為に選んだ76名の実患者を対象に、3つの重要な診断時点で比較を行いました。すなわち、救急トリアージ（患者来院直後）、救急医による初回診察、そして入院またはICU入室の判断時です。

各時点で、2名の内科主治医とOpenAIのo1、4oモデルが同時に鑑別診断を提示し、各陣営は最大5つの可能性のある診断名を挙げました。

重要な詳細は、研究者がデータを一切前処理しなかった点です。

論文には明確に、AIモデルが受け取った情報は、医師が電子カルテで見るものと完全に同一であったと記されています。つまり、乱雑で、欠落があり、ノイズに満ちた実際の臨床データです。

電子カルテのイメージ

その後、別の2名の主治医が「盲検評価」を行いました。彼らはどれが人間の診断で、どれがAIの診断か知らされていません。

盲検評価の結果、評価医は診断の出所をほぼ完全に見分けられませんでした。ある医師がAIと人間を言い当てた正解率はわずか15.2%で（83.6%は「見分けがつかない」を選択）、もう一人はさらに顕著で、わずか3.1%（94.4%が「見分けがつかない」）でした。

言い換えれば、AIが記述した診断は、ベテラン医師でさえ機械が生成したものとは見抜けなかったのです。

このような厳格な条件下で、o1モデルは、情報が最も少なく、時間が最も切迫し、意思決定が最も重要な段階である救急トリアージにおいて、67.1%の精度（正確な診断または極めて近い診断を含む）を達成しました。

2名の人間の医師の精度は、それぞれ55.3%と50.0%でした。

トリアージ段階の精度比較グラフ

情報が徐々に増えるにつれて、全員のパフォーマンスは向上しました。入院段階では、o1の精度は81.6%に上昇し、医師はそれぞれ78.9%と69.7%でした。

しかし、その差は常に存在し、情報が最も不足する初期段階で最大となりました。

これはまさに最も恐るべき発見です。救急で最も重要なのは「最初の数分間」であり、患者が運び込まれ、情報は断片的で、生死を分ける決断を、医師は極度の不確実性の中で下さなければなりません。

そしてまさにこの段階で、AIは最も顕著なパフォーマンスを示したのです。

区切り線

救急医からの反論：内科医をAIと比較して、何がわかるのか？

論文発表後、Kristen Panthagani氏という救急科医師がソーシャルメディア上で直接反論を開始しました。「これは過剰に誇張された、興味深い研究だ」と。

彼女の核心的な疑問は、研究でAIと比較されたのは内科主治医であり、救急科医師ではないという点です。

「AIと医師の臨床能力を比較するのであれば、少なくとも同じ専門科の医師と比較すべきです。大規模言語モデルが脳神経外科の専門試験で皮膚科医を打ち負かしても驚きませんが、それでは何の意味もありません。」

Kristen Panthagani医師の反論

彼女はまた、救急医学の本質的な論理も指摘しました。「初めて患者を診る救急医としての私の第一の目標は、最終診断を言い当てることではありません。私の第一の目標は、あなたの命を奪う可能性のある病気かどうかを判断することです。」

この反論には説得力があるでしょうか。

あります。しかし、研究論文自体がこの限界を既に認めており、論文の核心的主張は決して「AIが救急医に取って代われる」ということではなく、「限られた情報下でのAIの推論能力は、臨床試験に値するレベルに到達した」という点であることにも留意すべきです。

救急医が現場で行っていることは、「病名当て」だけではありません。患者の顔色を見て、呼吸音を聞き、痛みの程度を感じ取り、バイタルサインの微妙な変化を判断します。

これらの微妙な非言語的シグナルは、時にどんな検査指標よりも重要です。

経験豊富な救急医が病室に入り、患者を一目見ただけで、判断の80%を下しているかもしれません。この能力は「臨床的直感」（クリニカル・ゲシュタルト）と呼ばれ、数万件に及ぶ実際の診察経験から生まれますが、現在のAIにはまったく再現できません。

Manrai氏自身も、チームが画像やその他の非テキスト信号を処理するAIの能力を研究しており、「急速な進歩の結果が見えている」ものの、臨床展開までにはまだ長い道のりがあると認めています。

区切り線

ヒントンの「予言」の教訓：放射線科医は失業せず、むしろ多忙に

AIが医師に取って代わるという話題になると、避けて通れないのが、ある古典的な「大ハズシ」の事例です。

2016年、AIのゴッドファーザーでありノーベル賞受賞者のGeoffrey Hinton氏は、医学界を揺るがす発言をしました。「人々は今すぐ放射線科医の研修をやめるべきだ。5年以内にディープラーニングは放射線科医より優れた仕事をするようになる。それは完全に明白だ。」

Geoffrey Hinton氏の写真

この言葉は、当時、放射線科を選択しようとしていた多くの医学生を怯えさせました。2010年代後半を通じて、メディアは「放射線科は消滅寸前」という記事で溢れかえりました。

そして10年が経ちました。

メイヨー・クリニックの放射線科医チームは、2016年から現在までに55%増加し、400名に達しています。米国放射線学会は、今後30年間で放射線科医の供給がさらに26%増加すると予測しています。

世界最大の放射線科医不足が発生しています。AIが仕事を奪ったからではなく、AIが画像検査をより身近にしたことで、逆にさらなる需要を生み出したためです。

Hinton氏自身も後に、自分の発言は「大雑把すぎた」と認めました。

彼は予測を修正し、「将来の医用画像読影は、AIと放射線科医の組み合わせによって完了するだろう。AIは放射線科医の効率を大幅に向上させ、同時に精度も高める」と述べました。

この話には、深遠な経済学の原理、すなわち「ジェボンズの悖論」が潜んでいます。ある技術によってリソースの利用効率が上がると、そのリソースに対する総需要が逆に大幅に増加する可能性があるというものです。

画像診断が安価で迅速になったため、医師はより多くの検査を指示し、放射線科医はむしろ多忙になったのです。

ハーバード大学のこの新たな研究の著者たちは、明らかにヒントンの教訓を学んでいます。

論文の責任著者であるManrai氏は、記者会見で明確に述べました。「我々の発見は、AIが医師に取って代わることを意味するものではありません。一部のAI医療製品を販売する企業はそう言うかもしれませんが。」

共同責任著者で、ベス・イスラエルのAIプロジェクト責任者であるAdam Rodman氏は、さらに率直です。「現時点では、AI診断に関する正式な説明責任の枠組みは一切存在しません。患者が求めているのは、生死を分ける決断や困難な治療選択を導いてくれる『人』なのです。」

区切り線

「AIが勝利した」のではなく、医療における意思決定権が再編されつつある

米国医師会（AMA）の2026年調査によると、米国の医師の80%以上が既に業務でAIを使用しており、これは2023年の2倍です。

17%の医師が「診断支援」にAIを使用しています。

2025年のElsevierの研究では、臨床医の20%が既に大規模言語モデルに「セカンドオピニオン」を求めていることが判明しました。

ハーバード大学のこの研究は、情報が最も乏しく、意思決定が最も切迫する救急の現場において、AIの推論能力がすでに人間の医師を超えていることを証明しました。

これら3つのデータが重なり合い、一つの明確なトレンドを示しています。すなわち、医療における意思決定の権力構造が根本的に再編されつつあるということです。

かつての救急外来のモデルは、「患者来院 → 医師が判断 → 意思決定」というものでした。

将来のモデルは、「患者来院 → AIが電子カルテを高速スキャンし予備判断 → 医師が臨床観察とAIの提案を組み合わせて意思決定 → 患者が治療方針の議論に参加」というものになるかもしれません。

研究著者のRodman氏は、将来的に3つの分化が起こると予測しています。人間が常に優れた成果を出すタスク、AIが常に優れた成果を出すタスク、そして人間とAIの協調によって強化される必要があるタスクです。

これが研究者の言う「医師-患者-AI」の三者協調モデルです。

これは自動運転に非常に似ています。

レベル2はAIが人間の意思決定を支援する段階、レベル3はAIが主導し人間が監督する段階、レベル4は特定のシナリオで完全自動化される段階です。

現在、医療分野におけるAIは、おおむねレベル2からレベル3の間に位置しています。「文字の世界」では人間を超える判断を示せますが、現実のマルチモーダルな臨床現場では、人間の目や耳、直感による補完をまだ必要としているのです。

区切り線

AIが誤診したら、誰が責任を取るのか？

すべての議論において、誰も正面から触れようとしない「部屋の中の象」が存在します。AIがミスをした場合、誰が責任を負うのか？

Rodman氏は『ガーディアン』紙のインタビューで率直に認めています。現時点では、AI診断に関する正式な説明責任の枠組みは存在しないと。

もし医師が誤診した場合、成熟した医療紛争処理システムが存在します。患者は不服を申し立て、訴訟を起こすことができ、医師は免許に関するリスクに直面します。

しかし、もしAIが誤った提案をし、医師がそれを採用し、患者が害を被った場合、それは医師の責任でしょうか？ AI企業の責任でしょうか？病院の責任でしょうか？それとも三者で責任を分担するのでしょうか？

さらに複雑なシナリオとして、もしAIが正しい提案をしたにもかかわらず、医師がAIの判断を否定し、自身の誤った診断に固執して患者の治療が遅れた場合、このとき医師は「AIの提案を無視した」ことに対する追加の責任を負うべきでしょうか？

もう一つのより潜在的なリスクは、過度な依存です。

医師がAIの提供する高精度な判断に慣れてしまうと、彼らの独立した思考能力は退化してしまうのではないでしょうか？ GPSによって多くの人が自律的なナビゲーション能力を失ったように、AIによる診断支援は医師の臨床推論という「筋肉」を徐々に萎縮させてしまうのでしょうか？

これらの問いに対し、現時点で明確な答えを持っている国はどこにもありません。

参考文献：

https://www.science.org/doi/10.1126/science.adz4433

https://www.harvardmagazine.com/ai/ai-outperforms-doctors-diagnosis-harvard-study

ハーバード大学のScience誌に衝撃論文：AIの救急診断精度は67%で、ベテラン主治医を超える！しかし医師の代替はまだ先

関連記事

分享網址