[No.3988] OpenAI o1と眼科におけるAIの可能性 — JAMA Ophthalmology掲載論文

2025.09.21

OpenAI o1と眼科におけるAIの可能性

— JAMA Ophthalmology掲載論文からの報告 —

背景

大規模言語モデル（LLM）は、医療分野においても急速に応用が広がっています。放射線診断レポートの自動要約、救急外来でのトリアージ、さらには患者説明文の生成など、医師の業務を補助する場面は日々増えています。しかし、眼科のように専門性が高い領域では、一般的なAIモデルが必ずしも十分な性能を発揮できるとは限りません。誤情報（ハルシネーション）の危険もあり、臨床現場に導入するには厳密な検証が必要です。

2024年に登場したOpenAIの新モデル「o1」は、従来モデルより「推論能力の強化」に重点を置いた初のLLMです。このモデルが本当に眼科領域でも有用かどうかを調べたのが、今回JAMA Ophthalmology誌に掲載された論文（Srinivasanら, 2025）です。

研究の目的

眼科に関する質問応答の精度と推論能力について、o1の性能を他の主要モデル（GPT-4o、GPT-4、GPT-3.5、Llama 3-8B、Gemini 1.5 Pro）と比較すること。

方法

対象モデル：OpenAI o1、GPT-4o、GPT-4、GPT-3.5、Meta Llama 3-8B、Google Gemini 1.5 Pro
問題数：眼科領域の多肢選択問題（MedMCQA）6,990問
評価項目：
① 精度・マクロF1スコア（知識問題の正答率）
② 推論能力（テキスト生成の質：ROUGE-L、BERTScore、AlignScore、BARTScore、METEOR）
③ 専門家による有用性・整理度・理解しやすさの評価

結果

知識問題の精度
o1が全モデルで最も高い精度（正答率0.877）を示しました。
推論力（文章生成の質）
BERTScoreやROUGE-LではGPT-4oやGPT-4が上回り、o1は必ずしも最上位ではありませんでした。
専門家評価
出力の「臨床的有用性」と「整理度」において、o1はGPT-4oを上回ると評価されました。

図表：各モデルの比較（簡易まとめ）

精度（Accuracy, F1スコア）     →   o1 が最高
-----------------------------------------------
o1              ★★★★★  (0.877)
GPT-4o          ★★★★☆
GPT-4           ★★★★☆
GPT-3.5         ★★★☆☆
Llama 3-8B      ★★☆☆☆
Gemini 1.5 Pro  ★★☆☆☆

推論指標（文章生成の自然さ・一貫性）
-----------------------------------------------
GPT-4o          ★★★★★
GPT-4           ★★★★★
o1              ★★★★☆
GPT-3.5         ★★★☆☆
Llama 3-8B      ★★☆☆☆
Gemini 1.5 Pro  ★★☆☆☆

専門家評価（有用性・整理度）
-----------------------------------------------
o1              ★★★★★
GPT-4o          ★★★★☆
GPT-4           ★★★★☆

（★は相対的な評価のイメージ。実際のスコアは論文値に基づく）

結論

OpenAI o1は、眼科の知識問題では最高の精度を示し、臨床的に役立つ出力も提供できることが明らかになりました。ただし、文章生成の一貫性や自然さではGPT-4oやGPT-4に劣る部分があり、完全に最適化されたわけではありません。このことから、今後は「眼科に特化したAIモデル」を開発する必要性も浮き彫りになっています。

清澤のコメント

AIの進歩は眼科医療にとって追い風ですが、臨床応用にあたっては「AIが示す答えをそのまま信じるのではなく、人間の医師が確認する」ことが不可欠です。o1の結果は大変心強いものですが、４oや４でも十分に良く、現状はまだ補助的役割にとどまります。将来、眼科領域に最適化されたAIが登場すれば、診療や患者説明がさらに効率化されるでしよう。

映画で問う「揺さぶられる正義」――SBS（乳幼児揺さぶられ症候群）と冤罪問題

脳の予測と妄想 ― 最新精神医学研究から見えてきたこと；記事紹介

自由が丘清澤眼科最近の話題(長版)　98号；12月22日（月曜日）

自由が丘清澤眼科清澤眼科通信メールマガジン　9７：2025.12.17

心の病気と「炎症」の深い関係 ― 目の不調や感覚過敏ともつながる新しい視点 ―

GLP-1作動薬（GLP-1受容体作動薬）と「慢性の咳」の関連が、最近の大規模データ解析で指摘されました：

高齢者医療は「専門家だけのもの」ではない ― すべての医師が備えるべき時代に ―

黄斑の血管の病気は「加齢黄斑変性」だけではありません― 日本の眼科に掲載された4人の専門医による解説から ―

眼瞼痙攣と脳内物質の関係を探る ― 血液検査から見えてきた新しい視点 ―

感覚過敏はなぜ起こるのか ― 脳の研究から見えてきた「ビジュアルスノウ症候群」の新しい理解 ―

この植物は、チェリーセージ（サルビア・ミクロフィラ Salvia microphylla）

[No.3988] OpenAI o1と眼科におけるAIの可能性 — JAMA Ophthalmology掲載論文

OpenAI o1と眼科におけるAIの可能性

背景

研究の目的

方法

結果

図表：各モデルの比較（簡易まとめ）

結論

清澤のコメント

関連記事

AI革命と空間コンピューティングとが変える医療の未来：

「社会保険会議シンポジウム」一般にも理解しやすいまとめ

米国の眼科フェローシップには人種/民族の代表の不平等が見られる：論文紹介

世界のがん負担、2050年には1.8倍に ― Lancet報告が示す未来予測

政府の「年収の壁・支援強化パッケージ」について：記事紹介

高額医薬品の保険適用:医師はどう思う

コメント

最近の記事

心の病気と「炎症」の深い関係 ― 目の不調や感覚過敏ともつながる新しい視点 ―

GLP-1作動薬（GLP-1受容体作動薬）と「慢性の咳」の関連が、最近の大規模データ解析で指摘されました：

高齢者医療は「専門家だけのもの」ではない ― すべての医師が備えるべき時代に ―

カテゴリー

医院へのアクセス

受付時間	月	火	水	木	金	土	日
10:30 ~ 13:00 ※受付12:30迄	○	○	／	○	○	○	○
14:00 ~ 18:30 ※受付18:00迄	○	○	／	○	○	△ 受付15:30迄	△ 受付15:30迄