3xx、4xx、5xxのHTTPステータスコードを返すページをGoogleは無視しインデックスしない

[レベル: 中級]

検索における HTTP ステータス コードの扱いについて解説する技術ドキュメントに Google は重要な説明を追加しました。

3xx、4xx または 5xx を返す URL は無視されます。
📝すずき補足: 3xx は、301 や 302、304 など 300 番台のステータスコードをまとめる表現方法。4xx、5xx も同様

リダイレクトでは最終 URL が評価の対象

3xx (redirection) のセクションには次の一文が追加されました。

Googlebot がリダイレクト URL から受信したコンテンツはすべて無視され、最終的なターゲット URL のコンテンツのインデックス登録が検討されます。

たとえば、URL A から URL B へ 301 リダイレクトしていたとします。
評価対象になるのはリダイレクト先の URL B です。
リダイレクト元の URL A のページの中身を Google は考慮しません。

より正確に言えば、URL A の中身を見ません。
URL A にアクセスした段階で URL B にリダイレクトされていることを 301 ステータスコードによって検索エンジンは認識し、URL B に(瞬時に)アクセスし直します。

つまり、URL A のファイルそのものはサーバーに存在しなくていいのです。
サーバーサイドでリダイレクトを設定している限りは、リダイレクト元のページは削除可能です。
📝すずき注: meta refresh タグや JavaScript によるクライアントサイドのリダイレクトでは元ページが必要

これは、リダイレクトを初めて設定する人は知らないことが多い仕組みのように思います。
「リダイレクトしているページは残しておいたほうがいいですか?」は検索セントラルのヘルプコミュニティでもときどき出てくる質問です。

答えは「削除可能」です。

4xx を返すページは評価対象としては無視される

4xx (client errors) のセクション には次の一文が追加されました。

Googlebot が 4xx ステータス コードを返す URL から受信したコンテンツはすべて無視されます。

404 であろうが 410 であろうが 400 番台の HTTP ステータスコードを返すページはインデックスの対象になりません。
言い換えれば、評価対象としては無視されます。

注意点として挙げたいのはソフト 404 です。

ソフト 404 は、HTTP ステータスコードこそ 200 を返しますが、404 として処理されます。
つまりそのページは評価されません。

EC サイトで販売終了したページをカテゴリページのトップやサイトのトップページにリダイレクトして、評価を残し続けようと試みる人がいます。
Google 検索では多くの場合、ソフト 404 として認識されます。
たとえ正常にリダイレクトしていても、404 として扱われてしまうので評価を受け継ぐことはできません。

5xx を返すページも評価対象としては無視される

5xx (server errors) のセクションには次の一文が追加されました。

Googlebot が 5xx ステータス コードを返す URL から受信したコンテンツはすべて無視されます。

4xx と同様です。
500 番台のステータスコードを返すページはインデックスされません。

1 点覚えておくとしたら、503 の利用場面です。

メンテナンスやトラブルなどで一時的に一部のページあるいはサイト全体にアクセスできないときは 503 の HTTP ステータスコードを返すように構成します。
コンテンツがインデックスされることはありませんが、それまでインデックスされていたコンテンツはインデックスされている状態を保ちます。
検索エンジンの評価はそのままです。

503 以外の 5xx エラーはすべて無視され、インデックス対象になりません。
📝すずき注: 503 も長期間続くとそのページはインデックスから消える

評価の対象になるのは 2xx を返す URL だけ

結局、インデックスの対象になるのは 2xx(通常は 200)の HTTP ステータスコードを返す URL だけです。
2xx 以外のステータスコードを返すページはインデックスされません。

ただし、200 を返していたからといって必ずしもインデックスされるとは限りません。
品質が低かったり重複コンテンツとして判断されたりすればインデックスされないことがあります。