AIはなぜ「幻覚」を見るのか? ― OpenAI研究チームの最新報告
私たちが日常的に耳にするようになったChatGPTなどの大規模言語モデル(LLM: Large Language Model)は、人間のように自然で流暢な文章を作り出すことができます。しかし、その一方で「事実ではないことをもっともらしく語る」という現象が起こります。これをAIの世界では「幻覚(ハルシネーション)」と呼びます。例えば、存在しない研究論文を堂々と紹介したり、実際には違う情報を自信満々に説明したりすることがあります。
OpenAIの研究チームは、この「なぜAIが幻覚を起こすのか」という疑問を科学的に分析し、その原因と解決策を論文として発表しました。今回はその要点をご紹介します。
① 幻覚はどこから生まれるのか?
言語モデルはまず「事前学習」と呼ばれる段階を経ます。これは、膨大なインターネットや本の文章を読み込み、「次に来る単語は何か」を予測する訓練です。ここでは、その文章が事実かどうかのラベルは付けられていません。つまり、AIは「正しい知識」ではなく「よく出てくる言葉の並び方」を学んでいるのです。
例えば「東京の次に多い人口の都市は?」と問われると、統計データを正確に持っていなくても、過去の文章パターンから「大阪」と答える可能性が高くなります。これが正解であれば問題ありませんが、特殊な事実や細かい数字になるとパターンだけでは予測が難しく、誤答=幻覚につながります。
② 事後学習でも消えない幻覚
AIは事前学習のあとに「事後学習(評価や微調整)」を受けます。これは人間がフィードバックを与え、より正確に答えるように調整する段階です。しかし、それでも幻覚は完全には消えません。
その理由は、現在の評価方法にあります。多くのベンチマーク(試験問題のようなもの)は「正解か不正解か」でAIを採点します。このときAIが「分かりません」と答えると0点になります。そうなるとAIは不利になるので、多少不確実でも「何かを答えよう」としてしまうのです。これは、人間がテストで分からない問題でも空欄にせず、勘で答えて点を狙うのと同じ心理です。
③ 新しい評価の工夫
OpenAIは解決策として、「わかりません」と正直に答えた場合にも部分点を与える方式を提案しました。逆に、不正解にはペナルティを課すことで、AIが不用意に推測するインセンティブを減らすのです。
例えば「正解は1点、わかりませんは0点、不正解ならマイナス点」という採点ルールです。これならAIは「自信があるときだけ答えよう」と考え、不確実な時には棄権を選ぶようになります。実際に新しい方式を取り入れたモデルでは、正答率は大きく変わらないものの、幻覚率は75%から26%へと大幅に減少しました。
④ これからのAIとの付き合い方
研究チームは、幻覚は評価の仕組みに深く関係していると強調しています。つまり、AIを開発する側が「正直に分からないと認めること」を奨励すれば、幻覚を減らすことができるのです。
これは人間の世界にも通じる話です。医療現場でも「分からないことを正直に伝える」ことは信頼関係の基本です。AIも同じように、不確実なときに無理に答えず、「分かりません」と言えるように育てていく必要がある、というのが今回の研究の結論です。
出典
OpenAI: Why Language Models Hallucinate(2025年9月発表)
PDF全文はこちら
◎清澤のコメント
AIの幻覚は、医療分野での利用において大きな課題となります。患者さんへの説明や診断補助にAIを使う際も、誤った情報が紛れ込む可能性を忘れてはなりません。一方で、今回の研究のように「AIが自信を持てないときには無理に答えない」仕組みが進めば、医療現場での安全性も向上していくでしょう。私たちもAIを使う側として、その限界と進歩を理解しながら活用していく姿勢が大切だと感じます。
コメント