robots.txtでブロックしたページのクロール日がSearch Consoleにレポートされるのはなぜ？

[レベル: 中級]

robots.txt でクロールをブロックした URL にも前回のクロール日が Search Console に記録されます。
しかし、Googlebot はその URL を実際にはクロールしてはいません。

クロール試行失敗の日付

長い期間にわたって robots.txt でクロールを禁止していた URL があるが、Search Console のページインデックスレポートの「robots.txt によりブロックされました」では「前回のクロール」の日付が定期的に更新されている。しかし、サーバーや CDN のログには Googlebot のアクセスは記録されていない。

これはどういうことなのか？

こうした趣旨の質問を Google の John Mueller（ジョン・ミューラー）が尋ねられました。

端的に状況をまとめるとこうなります。

robots.txt でクロールをブロックした URL が Search Console ではクロールされているように見える（クロール日が定期的に更新されているから）
サーバーログには Googlebot がクロールした形跡はない

robots.txt でブロックしたページでも Search Console では確かにクロール日が記録されています。

禁止されているのにクロールしたということでしょうか？

ミューラー氏は次のように回答しました。

もしそうした URL が「ブロックされました」と表示されている場合、それは基本的にクロール試行の失敗を意味する。つまり、Google のシステムはクロールしようとしたものの、robots.txt によってブロックされたため、実際のクロールは行われていない。そのため、サーバーログには記録されない（または記録されるべきではない）ということになる。

「robots.txt によりブロックされました」で記録される前回のクロール日は、クロールした日ではなくクロールしようとした（でもできなかった）日を意味するということです。

実際にはクロールしていないのですから、サーバーログには当然現れません。

これは、robots.txt でクロールを正常にブロックできていれば、たとえ Search Console でクロール日が更新されていたとしても、クロールバジェットを消費しないということにも繋がります。

Hi @johnmu.com I’ve a set of URLs that have been disallowed for years which are showing regular Last Crawled date updates in GSC Blocked by robots.txt report but there is no record in our Apache logs or Cloudflare of HTTP requests for these URLs or them blocked from being logged in some way

— MikeO (@fearless-shultz.bsky.social) January 28, 2025 at 7:20 PM

If they're disallowed, and showing as "blocked by robots", then it's basically a failed crawl attempt – our systems wanted to crawl, but couldn't (because of robots.txt). You wouldn't (shouldn't) see it in your server logs.

— John Mueller (@johnmu.com) January 28, 2025 at 8:20 PM