白内障

[No.4431] 生成AIは眼科医にどこまで近づいたのか ― JAMA眼科が検証した「文章に強く、画像に弱い」最新AIの実力 ―

生成AIは眼科医にどこまで近づいたのか

― JAMA眼科が検証した「文章に強く、画像に弱い」最新AIの実力 ―

ChatGPTをはじめとする生成AIは、ここ数年で私たちの生活や仕事の風景を大きく変えました。医療の分野でも、「AIが医師の代わりになるのではないか」という声を耳にすることがあります。では、実際のところ、最新のAIは眼科診療にどこまで近づいているのでしょうか。

この疑問に正面から答えようとした研究が、2025年にJAMA眼科に掲載されました。

研究の背景

これまでの研究で、大規模言語モデル(LLM)は、医学知識を問う文章問題に対して高い正答率を示すことが知られていました。しかし眼科診療は、文章だけで完結する分野ではありません。眼底写真、OCT、スリットランプ写真など、「画像を見て判断する力」が診断の中核を占めています。

ところが、AIがこうした**文章+画像を組み合わせた問題(マルチモーダル問題)**にどの程度対応できるかについては、十分な検証がなされていませんでした。

研究の目的

本研究の目的は、現在利用可能な最新の生成AI(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro など7種類)が、

・文章のみの眼科問題

・文章と画像を含む眼科問題

にどれだけ正確に答えられるのかを調べ、実際の眼科研修医・若手医師・専門眼科医と直接比較することでした。

研究の方法

英国王立眼科学会の専門医試験(フェローシップ試験)対策用の教科書から問題を抽出し、文章問題とマルチモーダル問題を作成しました。

同じ問題に対してAIと医師が回答し、「教科書の正答と一致した割合」を成績として比較しました。AIが事前に答えを学習していないことを確認するため、紙の教科書由来の問題が使われています。

結果:文章問題では専門医レベルに接近

文章のみの問題では、Claude 3.5 SonnetやGPT-4oといった最新AIは非常に高い成績を示しました。

その正答率は、眼科研修医や若手医師を上回り、専門眼科医とほぼ同等という結果でした。また、GPT-4oは旧世代のGPT-4やGPT-3.5よりも明確に性能が向上しており、AIの進化の速さが改めて示されました。

結果:画像を含む問題では人間に及ばず

一方、画像を含むマルチモーダル問題になると状況は一変します。最も成績の良かったGPT-4oでも正答率は6割に届かず、専門眼科医や研修医の成績には明らかに及びませんでした

つまり、AIは「文章で考える力」は大きく進歩したものの、「画像を見て診断する力」は、まだ人間の眼科医にかなわないことが明確になりました。

結論

この研究から、最新の生成AIは、眼科の文章ベースの知識整理や推論においては、すでに専門医レベルに迫る能力を持つことが示されました。一方で、眼科診療の要である画像診断を含む判断については、現時点では限界があります。

今後、眼科特有の画像データを用いた学習が進めば、AIはさらに実用的な診療支援ツールになる可能性がありますが、少なくとも今の段階では、AIが眼科医に取って代わる存在ではないことがはっきりしました。

出典

Rossa H, et al.

Performance of Foundation Models vs Physicians on Text and Multimodal Ophthalmology Questions

JAMA Ophthalmology. 2026;144(1):5–13.

DOI: 10.1001/jamaophthalmol.2025.4255

眼科医・清澤のコメント

今回の研究結果は、日常診療の感覚とも一致します。AIは、鑑別診断の整理や知識の確認といった「考える補助」としては非常に有用です。しかし、画像を前にした最終判断は、やはり人間の眼科医の経験と責任が欠かせません。AIは“代役”ではなく、優秀な相談相手として使いこなす時代に入ったと感じています。私は、目の所見をつけて可能性のある疾患を問うと結構それらしい診断を示すと感じています。

メルマガ登録
 

関連記事

コメント

この記事へのコメントはありません。

最近の記事

  1. 生成AIは眼科医にどこまで近づいたのか ― JAMA眼科が検証した「文章に強く、画像に弱い」最新AIの実力 ―

  2. 初めてのコンタクトレンズ外来で何をするの? ― 中高生が安心して始めるための流れ ―

  3. ポリコナゾルなど抗真菌薬と視覚障害