■ChatGPT が作る文献の“引用捏造”はどこで増えるのか
――精神医学の研究論文から見えた、AI 活用時代への重要な注意点
近年、ChatGPT をはじめとした大規模言語モデル(LLM)が研究や診療情報の整理に使われるようになりました。私自身、患者さん向けの説明文や学会抄録の整理などに活用する場面が増えています。しかし、LLM はときに自信満々に「存在しない論文」を作り出すことがあります。学術的にはこれを「引用の捏造(fabrication)」と呼び、研究の信頼性を揺るがす重大な問題です。
今回、精神医学分野で ChatGPT(GPT-4o)の引用精度を検証した重要な論文が JMIR Mental Health に掲載されました。
論文題名:Influence of Topic Familiarity and Prompt Specificity on Citation Fabrication…(2025, JMIR Mental Health)
著者はオーストラリア・ディーキン大学の Linardon らです。
■ 研究の目的
LLM が文献レビューを書く際、
-
どの程度引用を捏造するか
-
テーマの知名度や研究の成熟度で捏造が増減するか
-
質問内容(プロンプト)の細かさが精度に影響するか
を調べたものです。
■ 方法
GPT-4o に次の6つの文献レビュー(各2000字、引用20件以上)を書かせました。
● 大うつ病:知名度が高く研究も豊富
● 過食性障害:知名度は中程度
● 身体醜形障害:知名度が低い
それぞれで
・「一般的レビュー」(症状・影響・治療)
・「専門的レビュー」(デジタル治療の研究)
を依頼。
出力された 176引用すべてを、Google Scholar・PubMed などで照合し、
① 完全な捏造
② 実在するが誤りあり
③ 完全に正しい
の3つに分類しました。
■ 結果:5件に1件が“完全にウソ”
● 176件中35件(19.9%)が架空の論文
もっともらしいタイトルと著者名で飾られていても、実際には存在しません。
● 実在した141件のうち64件(45%)に誤り
DOI(論文番号)、年、著者名の誤記が中心。
● 捏造率は疾患の“知名度”で明確に増減
-
大うつ病:6%
-
過食性障害:28%
-
身体醜形障害:29%
知名度が低く研究の積み重ねが少ない領域ほど、LLM が“想像で埋め合わせる”傾向が強くなりました。
● 質問の細かさでも差が出た
過食性障害では、
・一般レビュー:17%
・専門レビュー:46%
と、専門的要求になると捏造率が一気に跳ね上がりました。
これは、研究の密度が薄い領域では、LLM が“もっともらしい専門文献”を作りやすくなるためと考えられます。
■ 結論:引用の6割が「不正確または捏造」
AI は便利な一方で、文献引用に関してはまだ信頼性に限界があります。特に
● 知名度の低い領域
● 専門的な質問
では、引用の真偽が大きく揺らぎます。
研究者や臨床医が LLM を使う際は、
-
プロンプトを慎重に設計する
-
出力された引用は“必ず人間が全件確認”する
-
学術誌側もチェック体制を整える
ことが不可欠であると論文は指摘しています。
■ 清澤コメント
眼科領域でも、まれな疾患や最新テーマでは“架空の論文”が混じる可能性があります。AI を上手に活用しつつも、最後の確認は常に人間の責任。今回の研究は、AI時代の医学情報との向き合い方を考えるうえで大変示唆的でした。それにしてもPub Medなどのデータベースにはないが間違った情報がネット上には有るという事によるものなのか、それとも本当にファブリケーションが発生してしまうなという事なのか?現状では引用論文一件づつについて真偽を調べなおして論文提出をしないと著者はsン来を失う恐れが少なくないという事のようです。



コメント