はじめに
最近ではAIを普通に活用している人も多くなってきましたが、「AIは嘘ばかりで信用できない」といった意見もまだまだあります。いや、それは質問のしかたが悪いといった使い手の問題であるといった反論もあります。しかし、人の場合だと知らなかったり真偽不明なものであれば「恐らく」とか「多分」とか大阪だと「知らんけど」と自分の推測や想像だけどと伝えますが、AIは断定的でそれがあたかも真実であるかのように伝えてきます。
創造的なやりとりであれば問題ありませんが、お店や観光地の情報といった現実の質問に対してこういった嘘は非常に困りますし、情報が無いなら無いと答えて欲しいと思うわけです。
ではなぜこのような嘘をあたかも真実のように答えてしまうのでしょうか?
ハルシネーションがおきる理由
ハルシネーションとはAIが事実と異なる情報や存在しない情報を生成してしまう現象なのですが、最近ハルシネーションがおきる理由について論文が発表されました。それによると事前学習の問題など幾つか原因があるようなのですが、その中で個人的になるほどと腑に落ちた原因がありました。
AIの評価方法の問題
AIの評価方法として、人の試験と同じ様に得られた回答が正しいか正しく無いかという事を単純に正しければ1点といったように評価していたようです。皆さんも経験があるかもしれませんが、受験等の場合は分らなくてもとにかく答案を埋めろと言われた事はありませんでしょうか?
つまり、その問題を解けなくても適当に書いておく、選択式であれば鉛筆を転がして出た数字を書いたとしても偶然正解になる場合があるわけです。この方式だとその人の本当の実力を測る事ができません。AIも同じ評価基準としていれば、正しい答えが分からなくても適当な回答が真実の場合も偶然あるかもしれないので、あたかもこれが真実であると回答してしまう事になります。
これがAIが嘘をあたかも真実であるかのように嘘を付く原因であるということのようです。
具体的なケース
これはOpenAIにあるAimpleQA評価の結果です。

精度の部分を見ると、gpt-5よりも o4-mini の方が正解率が高いという結果になっています。これだけ見ると、o4-miniの方が優秀なのか?となります。しかし、エラー率はo4-miniは75%となっており棄権率は1%しかありません。つまり、全ての項目に対して分からないけどそれらしい回答(嘘)を答えているのです。嘘であっても偶然正解したのであれば精度としては高い事になるわけです。
今まではこの精度が評価の基準とされてきた為、AIもそれに合わせてトレーニングしてきたのですから、ハルシネーションが起こるのは当然と言えます。
これからの評価基準
ハルシネーションが起こるのは評価基準に問題があるのですから、評価基準を変えればよいわけです。単純に変えるのであれば間違った場合は減点し、分からない場合は棄権させる。例えば正解なら+1、棄権は0,間違いはー1とかにすればハルシネーションを減らす事ができると思われます。
それが gtp-5-thinking-mini の結果として出ているわけです。
最後に
AIには正確性を多くの場合は求めると思いますが、新たな創造が必要な場合も必要です。例えば何か新たなアイデアを提案して欲しい時のような嘘を求める事も必要です。人で例えるなら数学や物理等の教科には正確性が求められるでしょうし、芸術の分野では創造性が求められます。ただ、数学や物理であっても新たな発見には創造性が必要になるので、何を求めるのかといった人の指示とAIの柔軟性や言語理解力も更に求められるのかもしれません。相手がAIであっても会話力は必要というところが、ますます人に近づいていると言えるかもしれません。
しかし、試験の点数ばかり優秀でごめんなさい、わかりませんと言えないような所は確かにそういう人間も世の中に結構いるよなあと思ったりしますが、そういう人も評価基準が悪かったのだろうか?とちょっと思ったりしますが、どうなのでしょうか?

