Googleのクロールバジェットに関する2つの追加情報――新規サイトのクロール速度の決定方法、全URLのサイトマップは優先付けに役立たない

[レベル: 上級]

Google内部における「クロール バジェット」の仕組みに関してGoogleは公式ブログで先日解説しました。

この解説記事を書いたGary Illyes(ゲイリー・イリェーシュ)氏から入手した追加情報をThe SEM Postが公開しています。
とてもボリュームがある内容になっているのですが、そのなかから特に僕の目を引いた2つの追加情報をこの記事では紹介します。

既定のクロール速度が新しいサイトには一律適用

いわゆるクロールバジェットは、「クロール速度 (Crawl rate limit)」と「クロールの必要性 (Crawl rate limit)」の2つの要素から成っているとのことでした。
「クロール速度」は、サイトの反応速度やサーバーエラー、Search Consoleの設定などによって変化してきます。

それでは、新しいサイトをGooglebotが発見した際のクロール速度はどのように決められるのでしょうか?
初めて出会ったわけですから、調整するための手がかりをGooglebotは持っていません。

ゲイリーによれば、すべてのサイトには既定のクロール速度が最初に割り当てられるとのことです。
サイト規模の大小には関係せず、一律です。
その後インデックスが進んでいくのに合わせて、調整されていくそうです。

大規模サイトは最初からたくさんクロールされる傾向にあるのかとも想像していましたが、そうではないようですね。
もっとも、大規模かどうかを瞬時に判断することは難しいでしょうから、既定の速度でまずクロールをスタートさせる仕様は理にかなっていると言えます。

クロールを優先させたいなら部分的なサイトマップ

クロールを促進する役割をサイトマップが果たすことは、僕たちがよく知るところです。
公式ブログでの説明には含まれていませんが、もう1つの要素である「クロールの必要性」に影響する要因にはサイトマップも関わってくるはずです。

ところが、サイト内のすべてのURLを記載したサイトマップは、どのURLを優先的にクロールするかには影響しないようです。
すべてのURLが記載されている場合は、そのなかでは優先度を付けないことがありえます。

Stone Temple ConsultingのEric Enge氏と、2016年5月に行われたインタビューのなかでゲイリーはサイトマップとクロールの関係に関して次のように説明しています。

もしURLがサイトマップに載っているなら、より早く、より頻繁にそのURLをおそらくクロールするだろう。なぜかというと、サイトマップに載っているということはそのページがより重要なのだろと判断するからだ。

と同時に、すべてのURLがサイトマップに含まれるような、自動生成されたサイトマップにはこうしたことは当てはまらないとみなすこともありうる。

サイトマップを送信したからといって、他のサイトよりも頻繁にクロールされるわけではありません。
あなたのサイトに割り当てられたクロールバジェットを、どのように消費するかに影響を与えます。
すべてのURLが記載されたサイトマップでは、優先度を決定するヒントとしては必ずしも利用できないのでしょう。

新規公開したページのURLや頻繁に更新するURLのように、本当にクロールしてほしいURLだけをサイトマップには載せたほうがいいのかもしれません。

ただ lastmod をGoogleは利用しています。
すべてのURLを記載していたとしても、lastmod による優先付けは再クロールの促進に役立つこともあるでしょう。

大半のサイトではクロールバジェットを気にかける必要はありません。
それでもあなたが、SEOの研究に余念がない人なら知っておくとよさそうな追加情報だったのではないでしょうか。