Googlebotの2MB制限とは? クロール制約とSEOベストプラクティスまとめ

[レベル: 上級]

ウェブクローラーとしての Googlebot のクロールサイズ上限は 15MB ではなく 2MB であることを Google は先日明確にしました。

実際にはもとから 2MB だったのですが、15MB から縮小されたとして一部の人々の間では誤解や混乱が生じました。
この誤解を解消すべく、Googlebot のクロールの仕組みについて検索セントラルブログで Gary Illyes 氏が解説しています。

Googlebot の取得上限・レンダリング制約・SEO への示唆

ゲイリーの解説の主要ポイントをまとめます。
※僕がこの記事を書いている公開直後の時点では英語のみ。最近は翻訳速度が速いので 1 週間程度で日本語記事が公開されるはず。

  • Googlebot はより広いクローラープラットフォームの一部:
    「Googlebot」はもはや単一のクローラーではなく、複数の Google プロダクトが共有するクローリングインフラの一部である。ログ上で Googlebot として表示されているものは、Google ショッピングや AdSense などの他の Google プロダクトもサポートする集中型クローリングシステムを Google 検索が使用していることを示している。それぞれ異なるクローラー名で同一の基盤インフラにリクエストをルーティングしている。
  • Google 検索の取得制限は 1 URL あたり 2 MB:
    ほとんどの URL で、Googlebot は HTTP ヘッダーを含めて最初の 2 MB のみ取得する。PDF の場合、制限は 64 MB である。同一インフラ上で制限を指定していない他のクローラーは、コンテンツタイプに関わらず 15 MB がデフォルトとなる。画像および動画のクローラーはプロダクトによって大きく異なる。たとえば、画像検索とは異なり、ファビコン取得は上限が非常に低い。
  • 制限を超えたコンテンツは無視される:
    ページが制限を超えた場合、Googlebot はそのページを拒否するのではなく、取得を中断地点で停止する。それ以降のバイトには、取得/レンダリング/インデックス登録のいずれも行われない。
  • 参照リソースは個別に取得され、同じ 2 MB 制限が適用される:
    外部 CSS/JavaScript およびその他の対象リソースは、Web Rendering Service (WRS) によって個別に取得され、それぞれ URL ごとに独立したバイトカウンターが使用される。注意すべき点として、メディアファイル/フォント/一部の特殊なファイル形式はこの個別取得の対象外である。また、画像や動画はレンダリング中にリクエストされない。
  • レンダリングは取得済みのバイトのみを使用:
    Google の Web Rendering Service は JavaScript を実行し外部リソースを処理できるが、実際に取得したバイトの範囲内に限られる。重要なコードやコンテンツが中断地点を超えている場合、Google はそれを認識できない。
  • レンダリング環境はステートレス:
    ローカルストレージとセッションデータはリクエスト間でクリアされるため、JavaScript に依存した実装やステート(状態)に依存した動作の解釈に影響を与える可能性がある。
  • SEO へのベストプラクティス:
    • HTML を軽量に保つ:重い CSS や JavaScript は外部ファイルに移動する。初期の HTML ドキュメントは 2 MB が上限だが、外部スクリプトやスタイルシートは(それぞれの制限に従って)個別に取得される。
    • 順序が重要:metatitle 要素、link 要素、canonical、および必須の構造化データなどの最も重要な要素は、HTML ドキュメントの上部に配置する。これにより、それらの要素が中断地点より下で見つかる可能性を低くすることができる。
    • サーバーログを監視する:サーバーのレスポンスタイムを注視する。サーバーがデータの配信に負荷を感じている場合、インフラへの過負荷を避けるために当社のフェッチャーは自動的にリクエストを抑制し、その結果クロール頻度が低下する。

◇◇◇

HTML が 2 MB 超えることは極めて稀です。
したがって、ウェブクローラーとしての Googlebot の 2MB 上限を大多数のサイトでは必要以上に気にかける必要はありません。

Search Off the Record ポッドキャストのエピソード 105 でも、Googlebot が裏側でどのように動作しているかをゲイリーは詳しく解説しています。
Google クローラーの技術的な側面に興味がある人は聴くといいでしょう。