Google-Extendedユーザーエージェントをrobots.txtでブロックしてもSGEによるコンテンツ利用は防げない

[レベル: 上級]

ウェブ検索に影響を与えることなく、管理サイトのコンテンツを SGE が利用することを防ぐ手段はありません。
Google-Extended は SGE を対象にしません。

SGE は検索の一部

Bard と、Vertex AI の Generative AI API がサイトのコンテンツを学習データとして使わないようにするために、Google-Extended というユーザーエージェント トークンを Google は先日導入しました。
Google-Extendedrobots.txt でブロックすることによりコンテンツ利用を拒否できます。

しかし、Google-Extended の指定は SGE には効果を及ぼさないとのことです。
Google の広報は Search Engine Roundtable に次のようにコメントを出しました。

SGE は検索実験であるため、ウェブサイト管理者は robots.txt でのユーザーエージェントおよび noindex メタタグを使用して、Search Generative Experience などの実験を含む検索結果におけるコンテンツ管理を継続する必要があります。

背景として、AI は検索に組み込まれており、後付けではなく、検索機能に不可欠な部分となっています。そのため robots.txt は、ウェブパブリッシャーにサイトのクロール方法へのアクセスを管理するオプションを提供するための制御機能となっています。ご存知のように、Google では何年にもわたって AI と大規模言語モデルを検索に使用しており、検索結果の品質を大幅に向上させるだけでなく、レンズやマルチ検索などのユニークな検索方法を導入してきました。これらの取り組みは、Googleがユーザーをより関連性の高いウェブページに接続し、エコシステムに貴重なトラフィックを送信する能力をさらに高めることに貢献しています。

簡潔に言えば、SGE は独立したプロダクトではなく検索の一部なので、それだけを検索に利用させないという手段は提供していないということになるでしょうか。
つまり、robots.txtnoindex で SGE を制御すれば、通常の検索にも影響を与えてしまいます。

Google-Extended ブロックが SGE に機能しない事例

実際に、Google-Extendedrobots.txt でブロックしていても、SGE のスナップショットに利用されている例を見つけられます。

大手メディアサイトの The VergeGoogle-Extended によるサイト全体のクロールを robots.txt で拒否しています。

The Vergeのrobots.txt

しかし SGE のスナップショットには、概要の生成に利用された関連ページとして The Verge が掲載されています。

The VergeのSGEスナップショット The VergeのSGEスナップショット

現状では、SGE の利用を防ぐには、ウェブ検索クローラの Googlebot ユーザーエージェントを robots.txt または noindex で制御するほかありません。
副次作用としてウェブ検索にも影響します。

先月 Pubcon に参加した際に、SGE によるコンテンツを利用を拒否できるか?と Google のゲイリーに質問した時にも、今のところはないとの答えが返ってきました。
要望が出てくることは想定しているようで、将来的にはそういった仕組みの提供も必要になってくるだろうとのことでした。