[No.1982] 眼科における ChatGPT のパフォーマンスの評価：論文紹介

2023.09.08

清澤のコメント：最近、チャットGPTが司法試験や医師国家試験に耐えられるかといった設問が良くなされます。この論文ではチャットGPTの旧版と3版（つまり今では少し古い版です）を使って、眼科専門医試験でも相当に良い点を出せるということを示しました。面白いことに神経眼科や眼病理のような狭い専門領域範囲に使うにはさらに更に機械へのトレーニングが必要であったとしていることでした。しかし旧版からGPT3に変えればその差がなくなっており、最新のGPT4を使えば成績はさらに上がるでしょう。私はすでにこのブログを書くのにbingを使っています。その時には、自分の知識と矛盾する回答部分は修正を加えて公表しなくては誤りを犯します。

ーーーーーーー

“Evaluating the Performance of ChatGPT in Ophthalmology: An Analysis of Its Successes and Shortcomings.”
Evaluating the Performance of ChatGPT in Ophthalmology. Antaki, Fares et al. Ophthalmology Science. In press.

眼科における ChatGPT のパフォーマンスの評価
その成功と欠点の分析

Fares Antakiほか　オープンアクセス公開日:2023 年 5 月 4 日 DOI:https://doi.org/10.1016/j.xops.2023.100324
目的
ファウンデーションモデルは、新しいタイプの人工知能アルゴリズムであり、モデルは注釈のないデータで大規模に事前トレーニングされ、テキストの生成などの無数の下流タスクに合わせて微調整されます。この研究では、眼科の質問応答空間における大規模言語モデル (LLM) である ChatGPT の精度を評価しました。
デザイン
診断検査や技術の評価。
参加者
ChatGPT は一般に公開されている LLM です。
メソッド
私たちは、ハイステークスの眼科知識評価プログラム (OKAP) 試験の準備に一般的に使用される 2 つの人気のある多肢選択問題バンクで、ChatGPT の 2 つのバージョン (1 月 9 日の「レガシー」と ChatGPT Plus) をテストしました。基礎および臨床科学コース (BCSC) 自己評価プログラムと OphthoQuestions オンライン質問バンクから 2 つの 260 問の模擬試験を生成しました。ロジスティック回帰を実行して、試験セクション、認知レベル、難易度指数が解答の正確さに及ぼす影響を判定しました。また、Tukey のテストを使用して事後分析を実行し、テストされたサブスペシャリティ間に意味のある違いがあるかどうかを判断しました。
主な成果対策
ChatGPT の出力と質問バンクから提供された解答キーを比較することにより、各試験セクションの ChatGPT の正確さを正答率で報告しました。尤度比 (LR) カイ二乗を使用したロジスティック回帰結果を提示しました。検査セクション間の差異は、P 値 < 0.05 で統計的に有意であるとみなしました。
結果
従来のモデルは、BCSC セットで 55.8%、OphthoQuestions セットで 42.7% の精度を達成しました。 ChatGPT Plus を使用すると、精度がそれぞれ 59.4% ± 0.6% と 49.2% ± 1.0% に向上しました。 試験セクションと認知レベルを制御する際に、より簡単な問題で精度が向上しました。従来のモデルのロジスティック回帰分析では、試験セクション (LR、27.57; P = 0.006) に続いて質問の難易度 (LR、24.05; P < 0.001) が ChatGPT の回答精度を最もよく予測することが示されました。 従来のモデルは一般内科で最高のパフォーマンスを示し、神経眼科 (P < 0.001) と眼病理学 (P = 0.029) で最悪のパフォーマンスを示しましたが、ChatGPT Plus では同様の事後所見は見られず、検査セクション全体でより一貫した結果が示唆されました。
結論
ChatGPT は、模擬 OKAP 試験において有望なパフォーマンスを示しています。眼科の下位専門分野におけるパフォーマンスを向上させるには、ドメイン固有の事前トレーニングを通じて LLM を専門化することが必要な場合があります。
キーワード
人工知能
チャットGPT
生成的な事前トレーニング済みトランスフォーマー
医学教育
眼科
略語と頭字語:
AI（人工知能）、BCSC（基礎・臨床科学コース）、CI（信頼区間）、DL（深層学習）、GPT（生成事前学習変換器）、LLM（大規模言語モデル）、LR（尤度比）、OKAP（眼科）知識評価プログラム)、USMLE (米国医師免許試験)

前文：

2015 年以来、医療、特に眼科における人工知能 (AI) とディープラーニング (DL) の応用が大きく進展しました。ディープラーニングは、眼底などのさまざまな種類の眼科データを使用した画像認識に広く使用されています。写真や OCT を使用して、幅広い疾患の検出に優れた結果を示しています。さらに最近では、AI を使用して人間の言語を理解して対話することを含む、眼科における自然言語処理に DL を使用することへの関心が高まっています。
自然言語処理は、基礎モデルと呼ばれる大規模な DL モデルのリリースにより、ここ数か月間メディアでかなりの注目を集めています。基礎モデルは、AI システムを構築するための新しいパラダイムを表しており、モデルは、注釈のない膨大な量のマルチモーダルデータで大規模に事前トレーニングされます。自己管理された方法。その後、転移学習と呼ばれるプロセスを通じて、下流の無数のタスクに合わせて微調整されます。基礎モデルの信じられないほどの規模は、現在では数十億のパラメーターを含めることができ、変換器と組み合わせたコンピューターハードウェアの進歩によって可能になりました。このようなモデルの顕著な例は、人間のようなテキストを生成する大規模言語モデル (LLM) である Generative Pretrained Transformer 3 (GPT-3) です。

ーーーーーーーーーーー

自分に合ったコンタクトレンズ使ってますか？啓発活動:

2023年9月9日（土曜日）自由ヶ丘清澤眼科今日の話題

自由が丘清澤眼科最近の話題(長版)　74号；7月14日（月曜日）

自由が丘清澤眼科清澤眼科通信メールマガジン 73号　2025.7.9（水）

参院選序盤で浮上した「外国人政策」――生活に根差す新たな争点

ペプシ〈生〉ゼロ；「糖質制限の代替としてはOKですが、無制限で飲むのは避けましょう」

近視予防に新たな選択肢？多様なセグメント焦点ぼけ最適化レンズ（DSDO）の有効性を検証：最新論文

高円寺の裏町に咲く赤い花 ― 夏を彩るマンデビラの魅力

都会の路地に咲く「忘れ草」——カンゾウという植物と漢方での役割

【脳は「集中する」のではなく「無視する」ことで集中していた？】論文紹介

医学における「スピルオーバー」とは何か

[No.1982] 眼科における ChatGPT のパフォーマンスの評価：論文紹介

関連記事

小田原仁義　三河雑兵心得を読んで　井原忠政著

梅は咲いたか、桜はまだかいな。端唄

情熱大陸に東京医科歯科大学眼科大野京子教授が出演されます。

デルタ株から置き換わり？オミクロン株がキーワード？

顔認証技術について考えてみました

願い；あなたの一日が良い日でありますように。長谷川雅一

コメント

最近の記事

参院選序盤で浮上した「外国人政策」――生活に根差す新たな争点

ペプシ〈生〉ゼロ；「糖質制限の代替としてはOKですが、無制限で飲むのは避けましょう」

近視予防に新たな選択肢？多様なセグメント焦点ぼけ最適化レンズ（DSDO）の有効性を検証：最新論文

カテゴリー

医院へのアクセス

受付時間	月	火	水	木	金	土	日
10:30 ~ 13:00 ※受付12:30迄	○	○	／	○	○	○	○
14:00 ~ 18:30 ※受付18:00迄	○	○	／	○	○	△ 受付15:30迄	△ 受付15:30迄

[No.1982] 眼科における ChatGPT のパフォーマンスの評価：論文紹介

関連記事

小田原仁義 三河雑兵心得を読んで 井原忠政著

梅は咲いたか、桜はまだかいな。端唄

情熱大陸に東京医科歯科大学眼科大野京子教授が出演されます。

デルタ株から置き換わり？オミクロン株がキーワード？

顔認証技術について考えてみました

願い；あなたの一日が良い日でありますように。長谷川雅一

コメント

最近の記事

参院選序盤で浮上した「外国人政策」――生活に根差す新たな争点

ペプシ〈生〉ゼロ；「糖質制限の代替としてはOKですが、無制限で飲むのは避けましょう」

近視予防に新たな選択肢？多様なセグメント焦点ぼけ最適化レンズ（DSDO）の有効性を検証：最新論文

カテゴリー

小田原仁義　三河雑兵心得を読んで　井原忠政著