noindexと4xxはクロールバジェットの節約に役立つのか？

[レベル: 上級]

クロールバジェットについて解説する技術ドキュメントの「クロールに関する誤解と事実」セッションに 2 つの項目を Google は新たに追加しました。

クロールバジェットとは、クロール能力の上限とクロールの必要性の 2 つの要素によって決まるクロールの割り当てです。
大規模かつ頻繁に更新されるサイトの Google のクロール効率に関わってきます。

noindex はクロールバジェット制御に適した方法ではない

追加された 1 つは、クロールバジェットを制御するための noindex の利用です。

noindex 利用は正しくはありませんが、完全に間違っているわけでもありません。

次のようにドキュメントは説明しています。
📝すずき注: この記事を書いている時点では日本語ドキュメントは未更新なので、訳は僕による

Any URL that is crawled affects crawl budget, and Google has to crawl the page in order to find the noindex rule.

However, noindex is there to help you keep things out of the index. If you want to ensure that those pages don’t end up in Google’s index, continue using noindex and don’t worry about crawl budget. It’s also important to note that if you remove URLs from Google’s index with noindex or otherwise, Googlebot can focus on other URLs on your site, which means noindex can indirectly free up some crawl budget for your site in the long run.

クロールされる、どのページもクロールバジェットに影響します。noindex のルールを発見するためには Google はそのページをクロールしなければなりません。

しかしながら、noindex はインデックスからページを除外するのを手助けするためにあります。Google のインデックスに最終的にページが含まれないように確実にしたいのであれば、noindex の利用を続けます。クロールバジェットを心配する必要はありません。また、noindex やその他の手段で Google のインデックスから URL を除外する場合は、サイトのほかのページを Google は重要視することを知っておくことも大切です。このことは、長期的には、サイトのクロールバジェットをいくぶんかを noindex は間接的に解放できることを意味します。

noindex の存在を認識するにはそのページをまずクロールしなければなりません。
したがって、技術的には noindex はクロールバジェットの節約にはなりません。

ですが、noindex されたページは検索結果には出ないので、検索結果に出すほかのページのクロールを Google は優先します。
つまり長い目で見れば、noindex はクロールバジェットの制御に多少なりとも影響するということになります。

それでも、最適な方法ではありません。

4xx を返すページがクロールバジェットを浪費することはない

もう 1 つの追加は、400 番台の HTTP ステータスコードを返すページがクロールバジェットを浪費することはないという事実です。

Pages that serve 4xx HTTP status codes (except 429) don’t waste crawl budget. Google attempted to crawl the page, but received a status code and no other content.

4xx の HTTP ステータスコード (429 を除く) を配信するページはクロールバジェットを浪費しません。そのページのクロールを Google は試みますが、ステータスコードを受け取るとその他のコンテンツは取得しません。

404 や 410 だけではなくすべての 400 番台のステータスコードが返されると、そのページをそれ以上 Google はクロールしません。
コンテンツを取得する必要がないからです。
したがって、400 番台を返すページが多かったからといって、クロールバジェットが無駄に消費されたりはしません。

例外は、429 の HTTP ステータスコードです。

429 は “Too Many Requests” を意味し、一定期間に一定回数以上アクセスした相手に、サーバーが応答の継続を拒否します。
この状態が続くと、Google はクロールしなくなります。
間接的に、クロールバジェットの制御に影響します（これも最適な手段ではありませんが）。

以上の 2 つが、クロールバジェットの技術ドキュメントの「クロールに関する誤解と事実」セクションに追加されました。

注意点としては、クロールバジェットを気にかける必要があるサイトはごく限られている点です。
Google は対象になるサイトを次のように定義しています。

大規模なサイト（100 万ページ以上）で、コンテンツの更新頻度が中程度（1 週間に 1 回）の場合

中規模以上のサイト（10,000 ページ以上）で、（日常的に）コンテンツがめまぐるしく変更される場合

Search Console で合計 URL の大部分が検出- インデックス未登録に分類されたサイト

いわば、Amazon や楽天市場、アメブロのようなサイトですね。
僕のブログも含めて、大多数のサイトはクロールバジェットは無縁です。
もっとも逆に言えば、定義に当てはまるサイトはクロールバジェットについて理解しておくべきです。