OpenAI o1と眼科におけるAIの可能性
— JAMA Ophthalmology掲載論文からの報告 —
背景
大規模言語モデル(LLM)は、医療分野においても急速に応用が広がっています。放射線診断レポートの自動要約、救急外来でのトリアージ、さらには患者説明文の生成など、医師の業務を補助する場面は日々増えています。しかし、眼科のように専門性が高い領域では、一般的なAIモデルが必ずしも十分な性能を発揮できるとは限りません。誤情報(ハルシネーション)の危険もあり、臨床現場に導入するには厳密な検証が必要です。
2024年に登場したOpenAIの新モデル「o1」は、従来モデルより「推論能力の強化」に重点を置いた初のLLMです。このモデルが本当に眼科領域でも有用かどうかを調べたのが、今回JAMA Ophthalmology誌に掲載された論文(Srinivasanら, 2025)です。
研究の目的
眼科に関する質問応答の精度と推論能力について、o1の性能を他の主要モデル(GPT-4o、GPT-4、GPT-3.5、Llama 3-8B、Gemini 1.5 Pro)と比較すること。
方法
-
対象モデル:OpenAI o1、GPT-4o、GPT-4、GPT-3.5、Meta Llama 3-8B、Google Gemini 1.5 Pro
-
問題数:眼科領域の多肢選択問題(MedMCQA)6,990問
-
評価項目:
① 精度・マクロF1スコア(知識問題の正答率)
② 推論能力(テキスト生成の質:ROUGE-L、BERTScore、AlignScore、BARTScore、METEOR)
③ 専門家による有用性・整理度・理解しやすさの評価
結果
-
知識問題の精度
o1が全モデルで最も高い精度(正答率0.877)を示しました。 -
推論力(文章生成の質)
BERTScoreやROUGE-LではGPT-4oやGPT-4が上回り、o1は必ずしも最上位ではありませんでした。 -
専門家評価
出力の「臨床的有用性」と「整理度」において、o1はGPT-4oを上回ると評価されました。
図表:各モデルの比較(簡易まとめ)
精度(Accuracy, F1スコア) → o1 が最高
-----------------------------------------------
o1 ★★★★★ (0.877)
GPT-4o ★★★★☆
GPT-4 ★★★★☆
GPT-3.5 ★★★☆☆
Llama 3-8B ★★☆☆☆
Gemini 1.5 Pro ★★☆☆☆
推論指標(文章生成の自然さ・一貫性)
-----------------------------------------------
GPT-4o ★★★★★
GPT-4 ★★★★★
o1 ★★★★☆
GPT-3.5 ★★★☆☆
Llama 3-8B ★★☆☆☆
Gemini 1.5 Pro ★★☆☆☆
専門家評価(有用性・整理度)
-----------------------------------------------
o1 ★★★★★
GPT-4o ★★★★☆
GPT-4 ★★★★☆
(★は相対的な評価のイメージ。実際のスコアは論文値に基づく)
結論
OpenAI o1は、眼科の知識問題では最高の精度を示し、臨床的に役立つ出力も提供できることが明らかになりました。ただし、文章生成の一貫性や自然さではGPT-4oやGPT-4に劣る部分があり、完全に最適化されたわけではありません。このことから、今後は「眼科に特化したAIモデル」を開発する必要性も浮き彫りになっています。
清澤のコメント
AIの進歩は眼科医療にとって追い風ですが、臨床応用にあたっては「AIが示す答えをそのまま信じるのではなく、人間の医師が確認する」ことが不可欠です。o1の結果は大変心強いものですが、4oや4でも十分に良く、現状はまだ補助的役割にとどまります。将来、眼科領域に最適化されたAIが登場すれば、診療や患者説明がさらに効率化されるでしよう。
コメント