眼科医療経済等

[No.3988] OpenAI o1と眼科におけるAIの可能性 — JAMA Ophthalmology掲載論文

 

OpenAI o1と眼科におけるAIの可能性

— JAMA Ophthalmology掲載論文からの報告 —

背景

大規模言語モデル(LLM)は、医療分野においても急速に応用が広がっています。放射線診断レポートの自動要約、救急外来でのトリアージ、さらには患者説明文の生成など、医師の業務を補助する場面は日々増えています。しかし、眼科のように専門性が高い領域では、一般的なAIモデルが必ずしも十分な性能を発揮できるとは限りません。誤情報(ハルシネーション)の危険もあり、臨床現場に導入するには厳密な検証が必要です。

2024年に登場したOpenAIの新モデル「o1」は、従来モデルより「推論能力の強化」に重点を置いた初のLLMです。このモデルが本当に眼科領域でも有用かどうかを調べたのが、今回JAMA Ophthalmology誌に掲載された論文(Srinivasanら, 2025)です。


研究の目的

眼科に関する質問応答の精度と推論能力について、o1の性能を他の主要モデル(GPT-4o、GPT-4、GPT-3.5、Llama 3-8B、Gemini 1.5 Pro)と比較すること。


方法

  • 対象モデル:OpenAI o1、GPT-4o、GPT-4、GPT-3.5、Meta Llama 3-8B、Google Gemini 1.5 Pro

  • 問題数:眼科領域の多肢選択問題(MedMCQA)6,990問

  • 評価項目
    ① 精度・マクロF1スコア(知識問題の正答率)
    ② 推論能力(テキスト生成の質:ROUGE-L、BERTScore、AlignScore、BARTScore、METEOR)
    ③ 専門家による有用性・整理度・理解しやすさの評価


結果

  • 知識問題の精度
    o1が全モデルで最も高い精度(正答率0.877)を示しました。

  • 推論力(文章生成の質)
    BERTScoreやROUGE-LではGPT-4oやGPT-4が上回り、o1は必ずしも最上位ではありませんでした。

  • 専門家評価
    出力の「臨床的有用性」と「整理度」において、o1はGPT-4oを上回ると評価されました。


図表:各モデルの比較(簡易まとめ)

精度(Accuracy, F1スコア)     →   o1 が最高
-----------------------------------------------
o1              ★★★★★  (0.877)
GPT-4o          ★★★★☆
GPT-4           ★★★★☆
GPT-3.5         ★★★☆☆
Llama 3-8B      ★★☆☆☆
Gemini 1.5 Pro  ★★☆☆☆

推論指標(文章生成の自然さ・一貫性)
-----------------------------------------------
GPT-4o          ★★★★★
GPT-4           ★★★★★
o1              ★★★★☆
GPT-3.5         ★★★☆☆
Llama 3-8B      ★★☆☆☆
Gemini 1.5 Pro  ★★☆☆☆

専門家評価(有用性・整理度)
-----------------------------------------------
o1              ★★★★★
GPT-4o          ★★★★☆
GPT-4           ★★★★☆

(★は相対的な評価のイメージ。実際のスコアは論文値に基づく)


結論

OpenAI o1は、眼科の知識問題では最高の精度を示し、臨床的に役立つ出力も提供できることが明らかになりました。ただし、文章生成の一貫性や自然さではGPT-4oやGPT-4に劣る部分があり、完全に最適化されたわけではありません。このことから、今後は「眼科に特化したAIモデル」を開発する必要性も浮き彫りになっています。


清澤のコメント

AIの進歩は眼科医療にとって追い風ですが、臨床応用にあたっては「AIが示す答えをそのまま信じるのではなく、人間の医師が確認する」ことが不可欠です。o1の結果は大変心強いものですが、4oや4でも十分に良く、現状はまだ補助的役割にとどまります。将来、眼科領域に最適化されたAIが登場すれば、診療や患者説明がさらに効率化されるでしよう。

メルマガ登録
 

関連記事

コメント

この記事へのコメントはありません。

最近の記事

  1. 女性の尿失禁治療におけるボトックスの新しい応用 ― JAMA掲載のMUSA試験から

  2. 小児近視に対するアトロピン長期点眼の安全性をめぐって

  3. 線維柱帯切除後の有水晶体眼で起こり得るCME ― オミデネパグ点眼との関連