清澤のコメント:日本の眼科専門医試験の問題をチャットGPTに解かせてみてその正解率を調べたという報告。英語での医学試験での評価で推定されるところよりは、低い成績だったようだ。これは、英語に比べて日本語でのデータ量が少ないことによるらしい。私がこのブログ記事をAIの助けを借りて書く場合でも、質問を英語で聞き、次のステップとして与えられた英語の答えを日本語に翻訳させる方法の方がはるかに質の高い答えが得られる。参考文献も英語ならばEyewiki(米国眼科学会)程度の質の高いものが使われるのに対して、日本語で聞けば個人クリニックのホームページ程度のものであることが多い。また、質問の形を答えやすく設定するプロンプト エンジニアリングを行う事で正答率が上がるというのも私の実感に近い。現在のBingが3.5なのか4なのかは不詳。
ーーー日本眼科学会専門医試験におけるChatGPTの実績:要旨と前文ーーーー
Sakai D, Maeda T, Ozaki A, et al. (December 04, 2023) Cureus 15(12): e49903. doi:10.7759/cureus.49903 2023 年 12 月 4 日
抄録:私たちは、日本眼科学会の専門医試験を利用して、日本語による眼科領域におけるChatGPTの可能性を調査しました。 2023 年 7 月に、GPT-3.5 および GPT-4 ベースの ChatGPT を 5 セットの過去の委員会試験問題でテストしました。日本語のテキストがプロンプトとして使用され、ゼロショット プロンプトと少数ショット プロンプトの 2 つの戦略が採用されました。 ChatGPTの正答率と実際の受験者の正答率を比較し、10のサブスペシャリティにおけるパフォーマンス特性を評価した。 ChatGPT-3.5 と ChatGPT-4 は、単純なゼロショット プロンプトで 500 の質問のうち、それぞれ 112 (22.4%) と 229 (45.8%) に正解し、ChatGPT-4 は、数ショット プロンプトで 231 (46.2%) の質問に正解しました。 ChatGPT-3.5 の正答率は、各試験セットにおいて実際の受験者の正答率に比べて 2 ~ 3 倍程度低かった(p = 0.001)。 しかし、ChatGPT-4の正答率は受験者の約7割近くでした。 ChatGPT-4 は、「眼瞼形成術、眼窩、眼科腫瘍」で正答率が最も高く (ゼロショット プロンプトで 71.4%、少数ショット プロンプトで 61.9%)、最も低かった正答率 (ゼロショット プロンプトで 30.0%) でした。 「小児眼科」では23.3%(数回のショットの指示あり)。 私たちは、ChatGPT が日本の眼科における実用ツールの先進技術の 1 つである可能性があると結論付けました。
導入
生成人工知能 (AI) は、膨大な既存データから学習して、テキスト、画像、音声などの新しいオリジナル コンテンツを作成することに重点を置いた AI の一分野です。 この最先端の技術は、ヘルスケアを含むさまざまな分野で大きな関心を集めています。 特に、OpenAI によって開発された最もよく知られた生成 AI である ChatGPT は、米国医師免許試験の合格ラインをほぼ超える素晴らしいパフォーマンスを示しています [2]。 OpenAI は、ChatGPT を一貫して更新し、改良しています。 さらに、ユーザーは入力を最適化することで、プロンプト エンジニアリングと呼ばれる手法である ChatGPT のパフォーマンス向上に参加できます。 最も単純なプロンプト戦略は、ゼロショット プロンプトです。これは、タスクの実行方法について具体的な例を示さずに、指示とタスクで構成されます [3]。 パフォーマンスは、タスクのタイプを示唆するいくつかの例を提供する少数ショット プロンプトによって改善される可能性があります [4]。 強力なパフォーマンスとさらなる改善への高い期待に基づいて、専門的な意思決定や医療専門家と患者の間の対話をサポートする ChatGPT のさまざまな使用例が提案されています [5]。
以前のレポートでは、ChatGPT が眼科の専門知識に関する質問の少なくとも半分に正しく答えることができることが示されています [6-8]。 驚くべきことに、ChatGPT は特別なトレーニングを受けずに、眼科などの専門分野に適用できます。 この事実は、実際の臨床データを使用したドメイン固有のトレーニングで ChatGPT をカスタマイズし、眼科で臨床適用可能なレベルの ChatGPT テクノロジー ベースのツールを開発する動機となっています。 一般に、ChatGPT は他の言語よりも大量の英語データを使用してトレーニングされているため、英語で最もパフォーマンスが高いことが知られています。 したがって、同じトピックについて議論する場合でも、他の言語を使用すると ChatGPT のパフォーマンスが低下する可能性があります。 非英語圏の国での臨床応用には現地言語での操作が有利であるため、ChatGPT ベースのツールの研究開発を試みる前にこの懸念を検証する必要があります。 この研究は、日本眼科学会の専門医の審査を利用して、実用的な眼科ツールの先進技術として日本語でのChatGPTの実現可能性を調査することを目的としました。
コメント