ご近所の話題

[No.1983] 眼科における ChatGPT のパフォーマンスの評価:論文紹介

清澤のコメント:最近、チャットGPTが司法試験や医師国家試験に耐えられるかといった設問が良くなされます。この論文ではチャットGPTの旧版と3版(つまり今では少し古い版です)を使って、眼科専門医試験でも相当に良い点を出せるということを示しました。面白いことに神経眼科や眼病理のような狭い専門領域範囲に使うにはさらに更に機械へのトレーニングが必要であったとしていることでした。しかし旧版からGPT3に変えればその差がなくなっており、最新のGPT4を使えば成績はさらに上がるでしょう。私はすでにこのブログを書くのにbingを使っています。その時には、自分の知識と矛盾する回答部分は修正を加えて公表しなくては誤りを犯します。

ーーーーーーー

Evaluating the Performance of ChatGPT in Ophthalmology: An Analysis of Its Successes and Shortcomings.”
Evaluating the Performance of ChatGPT in Ophthalmology. Antaki, Fares et al. Ophthalmology Science. In press.

眼科における ChatGPT のパフォーマンスの評価
その成功と欠点の分析

Fares Antakiほか オープンアクセス公開日:2023 年 5 月 4 日 DOI:https://doi.org/10.1016/j.xops.2023.100324
目的
ファウンデーション モデルは、新しいタイプの人工知能アルゴリズムであり、モデルは注釈のないデータで大規模に事前トレーニングされ、テキストの生成などの無数の下流タスクに合わせて微調整されます。 この研究では、眼科の質問応答空間における大規模言語モデル (LLM) である ChatGPT の精度を評価しました。
デザイン
診断検査や技術の評価。
参加者
ChatGPT は一般に公開されている LLM です。
メソッド
私たちは、ハイステークスの眼科知識評価プログラム (OKAP) 試験の準備に一般的に使用される 2 つの人気のある多肢選択問題バンクで、ChatGPT の 2 つのバージョン (1 月 9 日の「レガシー」と ChatGPT Plus) をテストしました。 基礎および臨床科学コース (BCSC) 自己評価プログラムと OphthoQuestions オンライン質問バンクから 2 つの 260 問の模擬試験を生成しました。 ロジスティック回帰を実行して、試験セクション、認知レベル、難易度指数が解答の正確さに及ぼす影響を判定しました。 また、Tukey のテストを使用して事後分析を実行し、テストされたサブスペシャリティ間に意味のある違いがあるかどうかを判断しました。
主な成果対策
ChatGPT の出力と質問バンクから提供された解答キーを比較することにより、各試験セクションの ChatGPT の正確さを正答率で報告しました。 尤度比 (LR) カイ二乗を使用したロジスティック回帰結果を提示しました。 検査セクション間の差異は、P 値 < 0.05 で統計的に有意であるとみなしました。
結果
従来のモデルは、BCSC セットで 55.8%、OphthoQuestions セットで 42.7% の精度を達成しました。 ChatGPT Plus を使用すると、精度がそれぞれ 59.4% ± 0.6% と 49.2% ± 1.0% に向上しました。 試験セクションと認知レベルを制御する際に、より簡単な問題で精度が向上しました。 従来のモデルのロジスティック回帰分析では、試験セクション (LR、27.57; P = 0.006) に続いて質問の難易度 (LR、24.05; P < 0.001) が ChatGPT の回答精度を最もよく予測することが示されました。 従来のモデルは一般内科で最高のパフォーマンスを示し、神経眼科 (P < 0.001) と眼病理学 (P = 0.029) で最悪のパフォーマンスを示しましたが、ChatGPT Plus では同様の事後所見は見られず、検査セクション全体でより一貫した結果が示唆されました。
結論
ChatGPT は、模擬 OKAP 試験において有望なパフォーマンスを示しています。 眼科の下位専門分野におけるパフォーマンスを向上させるには、ドメイン固有の事前トレーニングを通じて LLM を専門化することが必要な場合があります。
キーワード
人工知能
チャットGPT
生成的な事前トレーニング済みトランスフォーマー
医学教育
眼科
略語と頭字語:
AI(人工知能)、BCSC(基礎・臨床科学コース)、CI(信頼区間)、DL(深層学習)、GPT(生成事前学習変換器)、LLM(大規模言語モデル)、LR(尤度比)、OKAP(眼科) 知識評価プログラム)、USMLE (米国医師免許試験)

前文:

2015 年以来、医療、特に眼科における人工知能 (AI) とディープラーニング (DL) の応用が大きく進展しました。ディープラーニングは、眼底などのさまざまな種類の眼科データを使用した画像認識に広く使用されています。 写真や OCT を使用して、幅広い疾患の検出に優れた結果を示しています。さらに最近では、AI を使用して人間の言語を理解して対話することを含む、眼科における自然言語処理に DL を使用することへの関心が高まっています。
自然言語処理は、基礎モデルと呼ばれる大規模な DL モデルのリリースにより、ここ数か月間メディアでかなりの注目を集めています。基礎モデルは、AI システムを構築するための新しいパラダイムを表しており、モデルは、注釈のない膨大な量のマルチモーダル データで大規模に事前トレーニングされます。 自己管理された方法。 その後、転移学習と呼ばれるプロセスを通じて、下流の無数のタスクに合わせて微調整されます。基礎モデルの信じられないほどの規模は、現在では数十億のパラメーターを含めることができ、変換器と組み合わせたコンピューター ハードウェアの進歩によって可能になりました。 このようなモデルの顕著な例は、人間のようなテキストを生成する大規模言語モデル (LLM) である Generative Pretrained Transformer 3 (GPT-3) です。

ーーーーーーーーーーー

メルマガ登録
 

関連記事

コメント

この記事へのコメントはありません。