ChatGPTとCommon Crawlのサイトへのアクセスを拒否する方法

[レベル: 上級]

この記事では、ChatGPT と Common Crawl がサイトにアクセスするのを防ぐ方法を解説します。

ChatGPT プラグインを robots.txt でブロック

ChatGPT 自体がサイトをクロールすることはありません。
しかし、プラグインがサイトにアクセスすることがあります。
ChatGPT プラグインのアクセスは robots.txt でブロックできます。

UA(ユーザーエージェント)は、ChatGPT-User です。

サイトへのアクセスを完全に拒否する場合は、次のように robots.txt に記述します。

User-agent: ChatGPT-User
Disallow: /

一部の URL にアクセスさせたくなければ、robots.txt の記述ルールに従って記述します。

User-agent: ChatGPT-User
Disallow: /no-chatgpt/
📝no-chatgpt ディレクトリ配下のページへのアクセスを拒否

robots.txt の拡張仕様の Allow ディレクティブを ChatGPT-User はサポートします。
サイト全体へのアクセスは基本的に拒否するものの、特定の URL へのアクセスだけは許可する構成も可能です。
Allow ディレクティブを使います。

User-agent: ChatGPT-User
Disallow: /
Allow: /directory-1/
Allow: /directory-2/
📝directory-1directory-2 のディレクトリ配下の URL にだけアクセスを許可

自分のサイトの情報を ChatGPT に使わせたくないという方は robots.txt の利用を検討してください。

また、OpenAI の IP アドレスも公開されています。
IP アドレスでの制御もできます。

ChatGPT のユーザーエージェントおよび IP レンジについては OpenAI のドキュメントで確認できます。

Common Crawl のクローラを robots.txt でブロック

Common Crawl(コモン・クロール)は、ウェブをクロールしそのデータのアーカイブを提供する非営利組織です。
ウェブの膨大な量のデータを蓄積しており、多くの LLM が Common Crawl のデータセットを AI のトレーニングに利用しています。
Google や Microsoft も利用しています。

しかし、自分たちが公開したコンテンツを無許可で使われているとして、Wall Street Journal や CNN のように懸念を抱いているパブリッシャーも存在します。

ChatGPT と同じように robots.txt で、Common Crawl が自分のサイトにアクセスすることを拒否できます。

Common Crawl の UA は CCBot です。

次のように robots.txt に記述すると CCBot のクロールを完全にブロックできます。

User-agent: CCBot
Disallow: /

自分のサイトで公開しているコンテンツを無許可で Common Crawl に取得されたくないというのであれば、robots.txt の使用を検討するといいでしょう。