Google AI Overview、正答率は向上するものの誤回答は依然として残る。根拠なし回答は増加

[レベル: 中級]

New York Times（ニューヨーク・タイムズ）の調査によると、Google の AI Overview が提供する回答の正確性は向上したものの、不正確な回答を提供する状況が依然として続いています。

依然として残る誤回答、根拠なしは増加

ニューヨーク・タイムズの依頼を受け、AI スタートアップの Oumi が SimpleQA と呼ばれるベンチマークを使って AIO の回答をテストしました。
その結果、Gemini 2 では 85%、Gemini 3 では 91% の正解率が確認されました。

正解率はたしかに向上しています。
よって、現行モデルの Gemini 3 のエラー率の 9% は低い数値に感じられるかもしれません。
しかし、Google が年間 5 兆件以上の検索を処理していることを踏まえると、9% のエラー率でも毎時数千万件の誤った回答が生じる計算になります。

さらに深刻な問題は、正確な回答であっても「根拠が示されていない (ungrounded)」ケースが多いという点です。
Gemini モデルのアップグレードに伴い、正確な回答が増えた裏で、その正確な回答における根拠なし率は悪化しました。
Gemini 2 の正確な回答のうち 37% が根拠なしであったのに対し、Gemini 3 では半数以上の 56% に上昇しており、回答が正しい場合でも検証がより困難になっています。

記事では、AI Overviews が誤っていた事例として、ボブ・マーリーの自宅が博物館に改装された年、ノースカロライナ州ゴールズボロの西側を流れる川、ヨーヨー・マがクラシック音楽殿堂入りしているかどうかなどが挙げられています。
※多くの日本人にはわからないトピック

全体的な回答が正しい場合でも、AI Overview が虚偽の詳細を付け加えることがありました。
ディック・ドラゴの事例では、死亡時の年齢は正しく示されていたものの、死亡した日付が繰り返し誤って伝えられていました。
※これもまったく馴染みのないトピック

Google は Facebook や Reddit を含む質の低い間接的なソースを引用することが多く、不正確な結果では Facebook の引用率（7%）が正確な結果（5%）よりもやや高い数字でした。

また、AI Overview は同じクエリに対して異なるタイミングで異なる回答を返すことがあるため、一貫性も問題です。

AI Overviews は操作される可能性もあります。
たとえば、SEO コンサルタントの Lily Ray（リリー・レイ）氏は、架空の記事を公開し、1 日以内に Google がそれを事実として AI Overview で引用したことを実証しました。

Google の主張

AI Overview は依然として間違った回答を提供し、正しい場合でも根拠を提示しないというニューヨーク・タイムズの検証結果に対して、問題が残されていることは認めつつも、Google は調査方法に異論を唱えています。
SimpleQA（OpenAI が構築したもの）自体に誤った情報が含まれており、実際のユーザー検索を反映していないと指摘しました。

広報担当は次のようにコメントを出しました。

当社の検索 AI 機能は、検索結果にスパムの圧倒的大多数が表示されるのを防ぐのと同じランキングおよび安全保護機能に基づいて構築されています。これらの例のほとんどは、実際には人々が行わない非現実的な検索です。

◇◇◇

AI Overview にしても AI Mode にしても、正しくない回答が返されるケースは今でも体験します。
さらに、情報源を確認できない回答が増えているのが事実ならば、よろしくありません。
予備知識のない情報を探しているときは、特に要注意です。

操作されやすい問題も確実に存在します。
先日、2026 年 3 月のコアアップデートが実施されましたが、実際のロールアウトに先立って、あるブログが（実験目的で？）、2026 年 3 月のコアアップデートの展開が始まった記事を公開したところ、AI Overview も　AI Mode も 2026 年 3 月のコアアップデートの情報を返しました（実際には、本当の展開はまだ実施されていない）。

偽情報を教え込むことが容易にできてしまう一例です。

誤情報が解答に含まれていることに気付いた場合はフィードバックを送ります。
さほど時間をおかずに修正されることが珍しくありません。