AIクローラーをブロックしても引用を防ぐことはできない?

[レベル: 上級]

BuzzStream の分析によると、robots.txt で AI クローラーをブロックしても、コンテンツが AI システムに引用されることをニュースパブリッシャーが確実に防ぐことは難しいようです。

BuzzStream 調査概要

ChatGPT と Gemini、AI Overviews、AI Mode を対象に 3,600 件のプロンプトから得た 400 万件の引用を BuzzStream は分析しました。

分析結果から、OpenAI または Google の AI ボットをブロックしているサイトの大多数が、依然として AI の引用に登場することが判明しました。

パブリッシャーおよびデジタル PR チームは、クローラーのブロックによってサイトが AI の可視性から除外されると思い込むべきではなく、記事の質とより広い配信に取り組むべきだと BuzzStream は結論づけています。

調査結果の主要データ

データセットは 10 業界にわたる 3,600 件のプロンプトから得た 400 万件の引用です。
全体として、OpenAI または Google の AI ボットをブロックしているサイトの約 75% が、依然として AI の引用に登場していました。

ChatGPT 関連ボット

  • ChatGPT-User(ライブ取得)をブロックしているサイトの 70.6% が依然として引用に出現した
  • OAI-SearchBot(インデックス作成・検索)をブロックしているサイトの 82.4% が依然として引用に出現した
  • GPTBot(トレーニング)をブロックしているサイトの 88.2% が依然として引用に出現した

Google 関連ボット

  • Google-Extended(トレーニング)をブロックしているサイトの 92.3% が依然として引用に出現した
  • Googlebot をブロックしているサイトは 0% だった。このクローラーをブロックすると通常の Google 検索からも除外されてしまうため

ブロックしているサイトからの引用シェア

  • GPTBot をブロックしているサイトからは 95.4%
  • Google-Extended をブロックしているサイトからは 95.4%
  • OAI-SearchBot をブロックしているサイトからは 69.9%
  • ChatGPT-User をブロックしているサイトからは 69.7%

AI クローラーをブロックしても引用されてしまう理由

AI クローラーをブロックしても引用されてしまう状況について、 BuzzStream は、可能性として考えられる理由をいくつか挙げながらも、一部はほかより説得力があると指摘しています。

まず、AI システムは、長年にわたりウェブをアーカイブしてきた Common Crawl (CCBot) によって以前クロールされたデータに依存している可能性があります。
CCBot は ChatGPT と Gemini の両方の初期トレーニングに使用されたと考えられます。

また、一部のボットが robots.txt を無視またはバイパスしている可能性も疑われます。

ブロックが追加される前にページがインデックスされていた可能性もあります。
ただし、これが最も納得できそうな推測としながらも成立しないと BuzzStream は主張します。
なぜなら、引用された記事のうち ChatGPT のローンチ以前から存在していたのは約 15%、AI Overviews のローンチ以前からは約 30% にすぎず、ブロックにもかかわらず AI が最新コンテンツに依然として積極的にアクセスしていることを示しているからです。

パブリッシャーが取るべき対応

パブリッシャーが取るべき対応として、BuzzStream は次を提案しています。

  • AI クローラーのブロックに過度に頼りすぎない
  • コンテンツが AI に引用されるかどうかに対する AI ボットのブロックの実質的な効果は限定的だと認識するべき
  • クローラーブロックの前提よりも、質の高い記事、より広いリーチ、オーディエンス配信を優先する
  • クローラーポリシーだけでなく、コンテンツの品質と共感性をより重要な要因として扱う

◇◇◇

興味深い調査結果ではありますが、必ずしも信頼性が高いとは言い切れません。

まず、調査方法の詳細が提供されていないため真偽を確かめるための情報が不足しています。

その上で、次のような問題点を指摘できます。

  • コントロールグループがない ―― ブロックしていない類似サイトと比較しなければ、ブロックが引用を実際に減らしたかどうかは判断できない
  • サンプルが大手サイトに偏っている ―― 上位 50 のパブリッシャーは圧倒的な権威性を持つ。依然として引用されるのは当然とも言えそう。規模の小さいサイトでは、まったく異なる結果が出る可能性がある
  • トレーニング用ボットは、そもそも引用のメカニズムではなかった ―― GPTBotGoogle-Extended をブロックしても、引用への影響はもともと考えにくい。そのため、それらに関する調査結果はほぼ意味をなさない
  • プロンプトの選定基準が不明瞭 ―― 3,600 件のプロンプトをどのように選んだかが明らかでなく、プロンプトの設計はどのサイトが登場するかに大きく影響する
  • タイミングが考慮されていない ―― ブロック状況は現時点で測定されているが、コンテンツがインデックスされた時点ではない。古いコンテンツはすでに AI システムに組み込まれている可能性がある

さらに、BuzzStream は PR アウトリーチツールを販売している企業です。
彼らの結論が、自社製品の価値提案に都合よく一致している点にも注意を払う必要があるでしょう。