眼科医療経済等

[No.2874] 大規模言語モデルが眼科における専門家レベルの臨床知識と推論に近づいている

大規模言語モデルが眼科における専門家レベルの臨床知識と推論に近づいている:

清澤のコメント:眼科臨床の設問に対して、AIは臨床医に近い、あるいはそれ以上の正答率を持つようになってきています。この論文では最先端の言語モデルとしてのGPT4を用いていますが、世間では既に次世代のGPToが上市されています。やや珍しい所見の臨床例を見た時に考え忘れている疾患や薬剤がないか?といった場合に、私はGPToを気軽に使います。私の実感としてもそれには相当な有用性を感じています。ただ、一つの問題は臨床所見を正確に取るという点であり、例えば角膜後面への炎症性巨細胞の沈着所見に気が付くかどうかで、ヘルペス性虹彩炎の診断精度は大きく変わるでしょう。この論文の著者は2つ目の問題点として、「検査性能自体は、医療支援ツールとして臨床診療に貢献するモデルの可能性に関する情報をほとんど提供していません」としており、おそらくこの点に着目しているのでしょう。

   ――――――

 

眼科における専門家レベルの臨床知識と推論に大規模言語モデルが近づく:直接の横断研究

  • アルン・ジェームズ・ティルナヴカラス、ほか

要約

大規模言語モデル(LLM)は、近年の自然言語処理の目覚ましい進歩の根底にあり、臨床現場での応用が始まっています。眼科における最先端のLLMの臨床的可能性を、生の検査スコアよりも堅牢なベンチマークを用いて評価することを目指した。GPT-3.5GPT-4GPT-4PaLM 2LLaMA、専門の眼科医、研修医を対象とした87問の模擬試験を行う前に、347問の眼科問題でGPT-3.5GPT-4を試験しました。パフォーマンスは、質問の主題とタイプ(一次想起と高次推論)に関して分析されました。マスクされた眼科医は、同じ質問に対するGPT-3.5GPT-4の回答の精度、関連性、全体的な好みを評価しました。GPT-4(69%)の性能は、GPT-3.5(48%)LLaMA(32%)PaLM 2(56%)よりも優れていました。GPT-4は、専門の眼科医(中央値76%、範囲64-90%)、眼科研修生(中央値59%、範囲57-63%)、および専門外の若手医師(中央値43%、範囲41-44%)と比較して良好でした。LLMと医師の間の一致の低さは、知識と推論の特異な違いを反映しており、被験者とタイプ間で全体的な一貫性があります(p>0.05)。すべての眼科医は、GPT-3.5よりもGPT-4の反応を好み、GPT-4の精度と関連性をより高いと評価しました(p<0.05)LLMは、眼科における専門家レベルの知識と推論スキルに近づいていますGPT-4のような最先端のLLMは、研修医グレードの眼科医や専門外の若手医師と同等または優れたパフォーマンスを発揮するため、専門の眼科医へのアクセスが限られている場合に有用な医学的アドバイスや支援を提供できる可能性があります。臨床ベンチマークは、臨床試験を設計し実施する前に、ヘルスケアにおけるLLM機能の有用なアッセイを提供します。

著者概要

大規模言語モデル (LLM) は、言語ベースの人工知能の最も洗練された形式です。LLMは医療を改善する可能性を秘めており、LLMが患者ケアを改善するための潜在的な道筋を探るための実験と試験が進行中です。ここでは、英国の眼科医(眼科医)の適性を評価するために使用される挑戦的な質問で最先端のLLMをテストします。これらのLLMのパフォーマンスを、完全に訓練された眼科医や、目の健康について患者にアドバイスを提供するためのLLMの適性を測定するための訓練を受けた医師と比較します。LLM1つであるGPT-4は、完全に資格を持ち、訓練を受けている眼科医と比較した場合、良好なパフォーマンスを示しています。また、その前身モデルであるGPT-3.5との比較では、この優れた性能はモデル応答の精度と関連性の向上によるものであることが示されています。LLMは、専門家レベルの眼科知識と推論に近づいており、医療専門家へのアクセスが限られている場合に眼関連のアドバイスを提供するのに役立つ可能性があります。臨床展開の潜在的な道筋を探るには、さらなる研究が必要です。

   

引用: Thirunavukarasu AJ, Mahmood S, Malem A, Foster WP, Sanghera R, Hassan R, et al. (2024) 大規模言語モデルは、眼科における専門家レベルの臨床知識と推論にアプローチする: A head-to-head cross-sectional study.PLOS Digit Health 3(4): e0000341です。 https://doi.org/10.1371/journal.pdig.0000341

 

緒言:

Generative Pre-trained Transformer 3.5 (GPT-3.5) および 4 (GPT-4) は、記事、書籍、その他のインターネット ソースから数千億の単語を含むデータセットでトレーニングされた大規模言語モデル (LLM) です [12]ChatGPTは、GPT-3.5またはGPT-4を使用して、人間のユーザーのクエリにオーダーメイドの応答を提供するオンラインチャットボットです[3]LLMは自然言語処理の分野に革命をもたらし、ChatGPTは医学部の試験で合格レベルの成績を達成し、ソーシャルメディアプラットフォームで患者の問い合わせに対して人間の医師よりも正確で共感的なメッセージを提供することで、医学で大きな注目を集めています[3,4,5,6]].GPT-3.5のより専門的な検査での性能は不十分でしたが、GPT-4は医学的知識と推論の面で大きな進歩を表していると考えられています[3,7,8]。広く使用されている他のLLMには、Pathways Language Model 2(PaLM 2)およびLarge Language Model Meta AI 2(LLaMA 2)[3][9p.2][10]が含まれます。

眼科の環境でのLLMのアプリケーションと試験は、一般開業医の試験で「目と視覚」に関連する質問でのChatGPTのパフォーマンスが他の科目よりも優れているにもかかわらず、制限されています[7,11]ChatGPTは、北米眼科知識評価プログラム(OKAP)、およびFellowship of the Royal College of Ophthalmologists(FRCOphth)パート1およびパート2の試験で試用されています。どちらの場合も、GPT-3.5 では比較的不良な結果が報告されており、GPT-4 では大幅な改善が示されています [12,13,14,15,16]。しかし、これまでの研究は、その妥当性と解釈可能性に影響を与える可能性のある2つの重要な問題に悩まされています。①まず、いわゆる「コンタミネーション」と呼ばれるもので、LLMの開発に使用された事前学習データに試験材料の特徴が含まれているため、モデルが臨床推論を使用して答えを提供するのではなく、以前に見たテキストを思い出すため、パフォーマンスが膨らむ可能性があります。②第二に、検査性能自体は、医療支援ツールとして臨床診療に貢献するモデルの可能性に関する情報をほとんど提供していません[3]。臨床ベンチマークは、LLMによって達成される眼科検査におけるスコアの意味と意味を理解するために必要であり、LLMベースの介入の臨床試験の必要な前兆です。

ここでは、FRCOphthパート2の試験問題を使用して、完全に資格があり、現在トレーニングを受けている眼科医を臨床ベンチマークとして使用して、LLMの眼科知識ベースと推論能力を評価しました。これらの質問はオンラインで自由に入手できなかったため、汚染のリスクが最小限に抑えられていました。FRCOphthパート2筆記試験は、否定的なマークのない多肢選択問題を使用して、トレーニング中の眼科医の臨床知識とスキルをテストし、英国の専門眼科医としての資格を完全に取得するには合格する必要があります。

 

メルマガ登録
 

関連記事

コメント

この記事へのコメントはありません。