ChatGPTの結果がLLMスパムに汚染され始めた

[レベル: 中級]

ChatGPT で、スパムの横行が顕在化し始めているようです。

ハッキングサイトと期限切れドメインから引用

Digitaloft の James Brockbank(ジェームズ・ブロックバンク)氏によると、最近の調査で、ChatGPT が特にオンラインカジノや賭博産業において、ハッキングされたウェブサイトや期限切れドメインで再公開されたサイトを推奨情報のソースとして使用していることが明らかになりました

スパムサイトを参照元とした ChatGPT の引用は、Google 検索において特に信頼性が重要視される YMYL 領域も例外ではありません。

ハッキングされたサイトからの引用には次のような例が発見できました。

  • ハッキングされたサイトに掲載されたリスト記事に基づいてオンラインカジノを推奨
  • カリフォルニアを拠点とするドメスティックバイオレンス (DV) 専門の弁護士のウェブサイトがハッキングされ、そこに公開されていたカジノのレビューページが ChatGPT が推奨
  • 国連関連の若者主導組織のグローバルネットワークである Paradigma Coalition のサイトにある同様のカジノ記事が引用
  • 米国のサマーキャンプのウェブサイトに、白い背景に白い文字を使ってカジノへのリンクが隠されたページが含まれていた

期限切れドメインスパムからの ChatGPT の引用には次のような例が発見できました。

  • 以前は BBC や CNN からのバックリンクを持ちドメイン評価が高かった芸術慈善団体のドメインが再取得され、そこでホストされているサイトが GamStop に非加盟のカジノを現在は宣伝
    ※すずき補足:GamStop は英国が組織するギャンブル依存対策プログラム
  • 薬物・アルコール乱用防止の慈善団体やバッグの小売業者などの期限切れドメインがあり、これらすべてがオンラインのブックメーカーを推奨するために転用

信頼性の低い引用の理由

ブロックバンク氏は、操作されている信頼性の低いサイトの情報を ChatGPT が引用してしまう理由を次のように推測しています。

  • ChatGPT の評価プロセスがドメインの権威性と認識されるものに大きく依存しており、トピックの関連性や所有者の変更を適切にフィルタリングしていない
  • 最近の日付のソースを好むという最新性を重視する傾向が ChatGPT にあり、これらの操作されたページは新たに公開されている

SEO 専門家も問題視する ChatGPT のスパム推奨

Lily Ray(リリー・レイ)氏も、ChatGPT がスパムサイトを引用してしまう現状を問題視しています。

ChatGPT は確実に拡大しつつあるスパム問題を抱えています。

Profound のデータによると、「健康保険」カテゴリーでChatGPTが最も引用しているページは、最初のスクリーンショットで確認できます(※すずき注:この引用の下に掲載)

これらのページの多くは信頼できる権威あるブランドのものですが、Ahrefs によれば、少なくとも 1 つは極めてスパム的で、Google からのトラフィックをまったく獲得していません。

Google は数年前、YMYL(Your Money, Your Life)コンテンツ―「健康保険」など―に対して E-E-A-T を導入し、怪しげな商品を扱うスパムサイトが「おすすめの健康保険会社」のような YMYL クエリに表示されないようにしました。

それにもかかわらず、2025 年の Google のスパム/品質フィルターを絶対に通過できないようなサイトのページを ChatGPT は頻繁に引用しており、そのページはこのカテゴリーで 10 番目に引用数が多くなっています。

この問題は今後 OpenAI にとって大きな課題になると私は見ており、問題が避けがたく拡大するなかで彼らがどう対処するのか非常に興味深いです。ユーザーが健康や医療に関する質問をした際に、ChatGPT が低品質でスパム的なウェブサイトを参照するようでは、ユーザーにとって良いことではありません。

Google が専任のウェブスパムチームを設置し、最終的に「E-E-A-T」を導入せざるを得なかった理由に OpenAI が気付くのはいつになるのでしょうか。

表

学術論文にこっそりと仕込まれた「AIだけが読める」隠し評価という、いわゆる “プロンプト インジェクション” の LLM 操作も発見されています。

AI 企業が LLM スパムに今後どのように対策していくかにも注視する必要があります。