私が大学に教官として勤務していたころ、入院患者の退院時のサマリー作成はレジデントの重要な仕事であり、眼科の研修期間終了後にも、この作業が不得意で提出できていない医師は病院のカルテ管理者の命令で、夜中までかかり、或いは休日出勤をしてその記載をさせられていました。今回の記事は、そのような過重な作業をAIに肩代わりさせても差し支えが無いという内容です。また、現在はAIの性能が日々向上していますから、AIの優位性はその後も増していると思われます。
ーーーー記事の要点ーーーー
医師と大規模言語モデルが生成した退院サマリーというクリストファー・Y・K・ウィリアムズ医師らの論文(doi:10.1001/jamainternmed.2025.0821)では、大規模言語モデル (LLM) は、医師が作成したものと同等の品質と安全性を備えた退院サマリー文書を作成できますか?という問いに可能と答えています。
LLMによる退院サマリー作成:その品質と安全性の評価
結果 この横断研究では、100件の退院サマリーを対象に、医師が作成した記述と大規模言語モデル(LLM)が作成した記述を比較しました。盲検化された評価者による全体的な質と嗜好性について、両者に有意差は認められませんでした。
LLMが作成したナラティブは、医師作成のものよりも簡潔で一貫性が高い一方で、包括性にやや欠けていました。また、LLM作成の記述には誤りが含まれる可能性が高かったものの、全体的な危害の可能性は低い水準にとどまりました。これらの調査結果から、LLMが退院サマリーを作成することで臨床医を支援する可能性が示唆されています。
要旨 質の高い退院サマリーは患者の転帰に大きな影響を及ぼす一方で、臨床文書作成の負担を増加させます。本研究は、LLMが退院サマリー作成の支援にどの程度役立つかを検証するために実施されました。
研究の背景と方法 カリフォルニア大学サンフランシスコ校で実施されたこの横断研究では、2019年から2022年の間にランダムに選ばれた3~6日間の入院患者100名を対象にしました。分析は2024年7月に行われ、医師とLLMがそれぞれ作成した記述を22人の担当医師が二重盲検で評価しました。
評価基準 評価項目には、全体的な質、嗜好性、包括性、簡潔性、一貫性、さらに3種類の誤り(不正確さ、省略、幻覚)を含めました。また、米国医療研究品質庁(AHRQ)の改訂スケールを用いて、各誤りと記述全体について0~7の潜在的有害性スコアを付与しました。
主要な結果
-
全体的な質と嗜好性:LLM作成の記述と医師作成の記述に有意な差はなし。
-
簡潔性と一貫性:LLM作成の記述が医師作成のものより優れる(P < .001、P = .02)。
-
包括性:LLM作成の記述は医師作成のものに比べて劣る(P < .001)。
-
誤り:LLM作成の記述には、医師作成の記述よりも多くの固有の誤りが含まれていた。しかし、有害性スコアでは両者に大差は見られなかった(P = .99)。
結論と意義 この研究は、LLMが退院サマリーの作成を通じて臨床医の負担を軽減できる可能性を示唆しています。特に、人間によるレビューを条件にすることで、LLMの使用が病院現場における現実的な選択肢となり得ることが明らかになりました。
追記:
コメント