[No.2235] 眼科専門医試験をAIに解かせてみる

2023.12.17

清澤のコメント：日本の眼科専門医試験の問題をチャットGPTに解かせてみてその正解率を調べたという報告。英語での医学試験での評価で推定されるところよりは、低い成績だったようだ。これは、英語に比べて日本語でのデータ量が少ないことによるらしい。私がこのブログ記事をAIの助けを借りて書く場合でも、質問を英語で聞き、次のステップとして与えられた英語の答えを日本語に翻訳させる方法の方がはるかに質の高い答えが得られる。参考文献も英語ならばEyewiki（米国眼科学会）程度の質の高いものが使われるのに対して、日本語で聞けば個人クリニックのホームページ程度のものであることが多い。また、質問の形を答えやすく設定するプロンプト　エンジニアリングを行う事で正答率が上がるというのも私の実感に近い。現在のBingが3.5なのか４なのかは不詳。

　　　ーーー日本眼科学会専門医試験におけるChatGPTの実績：要旨と前文ーーーー

　Sakai D, Maeda T, Ozaki A, et al. (December 04, 2023) Cureus 15(12): e49903. doi:10.7759/cureus.49903　2023 年 12 月 4 日　

抄録：私たちは、日本眼科学会の専門医試験を利用して、日本語による眼科領域におけるChatGPTの可能性を調査しました。 2023 年 7 月に、GPT-3.5 および GPT-4 ベースの ChatGPT を 5 セットの過去の委員会試験問題でテストしました。日本語のテキストがプロンプトとして使用され、ゼロショットプロンプトと少数ショットプロンプトの 2 つの戦略が採用されました。 ChatGPTの正答率と実際の受験者の正答率を比較し、10のサブスペシャリティにおけるパフォーマンス特性を評価した。 ChatGPT-3.5 と ChatGPT-4 は、単純なゼロショットプロンプトで 500 の質問のうち、それぞれ 112 (22.4%) と 229 (45.8%) に正解し、ChatGPT-4 は、数ショットプロンプトで 231 (46.2%) の質問に正解しました。 ChatGPT-3.5 の正答率は、各試験セットにおいて実際の受験者の正答率に比べて 2 ～ 3 倍程度低かった（p = 0.001）。しかし、ChatGPT-4の正答率は受験者の約7割近くでした。 ChatGPT-4 は、「眼瞼形成術、眼窩、眼科腫瘍」で正答率が最も高く (ゼロショットプロンプトで 71.4%、少数ショットプロンプトで 61.9%)、最も低かった正答率 (ゼロショットプロンプトで 30.0%) でした。「小児眼科」では23.3%（数回のショットの指示あり）。 私たちは、ChatGPT が日本の眼科における実用ツールの先進技術の 1 つである可能性があると結論付けました。

導入
生成人工知能 (AI) は、膨大な既存データから学習して、テキスト、画像、音声などの新しいオリジナルコンテンツを作成することに重点を置いた AI の一分野です。この最先端の技術は、ヘルスケアを含むさまざまな分野で大きな関心を集めています。特に、OpenAI によって開発された最もよく知られた生成 AI である ChatGPT は、米国医師免許試験の合格ラインをほぼ超える素晴らしいパフォーマンスを示しています [2]。 OpenAI は、ChatGPT を一貫して更新し、改良しています。さらに、ユーザーは入力を最適化することで、プロンプトエンジニアリングと呼ばれる手法である ChatGPT のパフォーマンス向上に参加できます。 最も単純なプロンプト戦略は、ゼロショットプロンプトです。これは、タスクの実行方法について具体的な例を示さずに、指示とタスクで構成されます [3]。 パフォーマンスは、タスクのタイプを示唆するいくつかの例を提供する少数ショットプロンプトによって改善される可能性があります [4]。 強力なパフォーマンスとさらなる改善への高い期待に基づいて、専門的な意思決定や医療専門家と患者の間の対話をサポートする ChatGPT のさまざまな使用例が提案されています [5]。

以前のレポートでは、ChatGPT が眼科の専門知識に関する質問の少なくとも半分に正しく答えることができることが示されています [6-8]。驚くべきことに、ChatGPT は特別なトレーニングを受けずに、眼科などの専門分野に適用できます。この事実は、実際の臨床データを使用したドメイン固有のトレーニングで ChatGPT をカスタマイズし、眼科で臨床適用可能なレベルの ChatGPT テクノロジーベースのツールを開発する動機となっています。一般に、ChatGPT は他の言語よりも大量の英語データを使用してトレーニングされているため、英語で最もパフォーマンスが高いことが知られています。したがって、同じトピックについて議論する場合でも、他の言語を使用すると ChatGPT のパフォーマンスが低下する可能性があります。非英語圏の国での臨床応用には現地言語での操作が有利であるため、ChatGPT ベースのツールの研究開発を試みる前にこの懸念を検証する必要があります。この研究は、日本眼科学会の専門医の審査を利用して、実用的な眼科ツールの先進技術として日本語でのChatGPTの実現可能性を調査することを目的としました。

最初の老眼鏡に１００円ショップの老眼鏡はあり？

あきない世傳　金と銀　読み終わりました

自由が丘清澤眼科・最近の話題　４月29日（月曜日）

慶祝　眼科　梶田塾開設へ

廉価版電子カルテを国が開発するそうです。

10周年記念講演会； NPO　目と心の健康相談室、ご案内

休暇も良いけれど、個人投資家には手も足も出せない連休に突入：2つの記事紹介

女子医大眼科の勉強会を聞いてきました

白内障手術後の迷光の変化: 論文紹介

老眼に対する眼鏡処方　（臼井千恵先生）読後印象記

[No.2235] 眼科専門医試験をAIに解かせてみる

関連記事

政府の「年収の壁・支援強化パッケージ」について：記事紹介

「医療・ヘルスケアにおけるエビデンスに基づく政策立案の強化:論文紹介

最近のOphthalmology誌論文の特徴：

眼科診療の効率を向上させ、最終的に収益性を最大化するために

米国眼科学会におけるタイトル付き記念講演一覧：坪田演題もあり

廉価版電子カルテを国が開発するそうです。

コメント

最近の記事

慶祝　眼科　梶田塾開設へ

廉価版電子カルテを国が開発するそうです。

自由が丘清澤眼科・最近の話題　４月29日（月曜日）

カテゴリー

医院へのアクセス

受付時間	月	火	水	木	金	土	日
10:30 ~ 13:00 ※受付12:30迄	○	○	／	○	○	○	○
14:00 ~ 18:30 ※受付18:00迄	○	○	／	○	○	△ 受付15:30迄	△ 受付15:30迄

[No.2235] 眼科専門医試験をAIに解かせてみる

関連記事

政府の「年収の壁・支援強化パッケージ」について：記事紹介

「医療・ヘルスケアにおけるエビデンスに基づく政策立案の強化:論文紹介

最近のOphthalmology誌論文の特徴：

眼科診療の効率を向上させ、最終的に収益性を最大化するために

米国眼科学会におけるタイトル付き記念講演一覧：坪田演題もあり

廉価版電子カルテを国が開発するそうです。

コメント

最近の記事

慶祝 眼科 梶田塾開設へ

廉価版電子カルテを国が開発するそうです。

自由が丘清澤眼科・最近の話題 ４月29日（ 月曜日）

カテゴリー

慶祝　眼科　梶田塾開設へ

自由が丘清澤眼科・最近の話題　４月29日（月曜日）