Google-ExtendedユーザーエージェントでBardのコンテンツ利用を拒否

[レベル: 上級]

Google は、Google-Extended という新しいユーザーエージェントを追加しました。
Bard と Vertex AI generative API の生成 AI にサイトのコンテンツを利用させるかどうかを制御できます。

Google の AI にコンテンツを使われたくなければ Google-Extended を robots.txt でブロック

Bard および Vertex AI generative API が利用する生成 AI にサイトのコンテンツを使わせたくない場合は、Google-Extended のクロールを robots.txt でブロックします。

次のように robots.txt 記述すると、サイト内のすべてのコンテンツの利用を拒否できます。

Use-Agent: Google-Extended
Disallow: /

Google-Extended によるクロール制御は、現在のモデルだけではなく、将来リリースされる世代のモデルにも適用されます。

Google-Extended は実際には存在しないクローラ?

ここは技術的な余談です。

完全なユーザー エージェント文字列は Google-Extended には提供されていません。
次のように Google は説明しています。

Google-Extended は個別の HTTP リクエストユーザーエージェント文字列を持っていません。クローリングは、既存の Google ユーザーエージェント文字列で行われます。robots.txt ユーザーエージェントトークンが制御機能として使用されます。

📝すずき注:この記事を書いている時点では日本語ドキュメントは未更新のため、僕による翻訳

Google-Extended というトークンのユーザーエージェントが実際にクロールするわけではないようです。
おそらく、通常のウェブ用の Googlebot がクロールを実行し、その後のプロセスで Bard および Vertex AI generative API にコンテンツを利用させるかどうかを判断しているのではないかと思われます。

したがって、サーバーのログファイルには Google-Extended は記録されないのではないでしょうか?

いずれにしても、Bard と Vertex AI generative API のトレーニングに自分のサイトのコンテンツを使わせたくなければ、Google-Extended を robots.txt でブロックしてください。