重複コンテンツが発生する理由、検索に与える悪影響、防ぐ方法などをGoogleが詳しく解説

[レベル: 初級]

重複コンテンツに関するヘルプ記事を Google は更新しました。
重複が発生する理由や、重複が検索に与える悪影響、重複を防ぐ方法などが詳細に説明されています。

重複コンテンツについて十分に理解していると確信が持てない人、特に重複コンテンツに無頓着な人や重複コンテンツはペナルティの原因になると誤解している人は必ず読むことを強く、強く推奨します。

重複コンテンツ ヘルプ記事の概要

更新されたヘルプ記事はたとえば、次のような項目について解説しています。

  • 類似ページや重複ページが生じる原因
  • 正規化の詳細
  • 正規ページの指定が重要な理由
  • 正規ページを指定する方法

通常は、重複コンテンツによって評価が下がったり、ましてペナルティ(手動対策)を受けることはありません。
しかしながら、重複コンテンツの発生は決して好ましい状態でないこともまた確かです。

ヘルプ記事は、重複コンテンツが検索に与える可能性がある悪影響をこのように説明しています。

Googlebot は、サイトをインデックスに登録する際、各ページのトピックを特定しようとします。同一のサイト内に、同じものを扱っていると思われるページが複数見つかった場合、Googlebot では、最も完成度が高く有用であると判断したページを選び、そのページを正規と見なします。

この正規ページが定期的に最も頻繁にクロールされることになり、重複したページについては、該当サイトのクロールの割り当てを制限するためにクロール頻度が下がります。

そのため、どのページが正規であるかを Googlebot に伝えないまま、別のページを正規ページとした場合には、ページの更新作業に労力を費やしても、そのページが実際には、Googlebot であまり頻繁にインデックス登録されない、検索結果に表示されない、といったことになりかねません。

※読みやすいように改行を追加

本当にクロール、インデックスしてほしいページがそうされず、結果的に検索結果に表示されなくなる事態を重複コンテンツは招きかねないのです。

もう少し具体的には、正規化(代表のページを決めること)が必要な目的を Google は次のように説明してます。

  • 検索結果でユーザーに表示する URL を指定するため
  • 類似ページや重複ページについてリンクのシグナルを統合するため
  • 1 つの商品やトピックのトラッキング指標を単純化するため
  • シンジケーション コンテンツを管理するため
  • 重複したページのクロールに時間がかかるのを防ぐため

何もしなくても、Google は代表のページ(“正規ページ”と呼ぶ)をたいていの場合は正しく判断してくれます。
しかし、100% 確実にということでもありません。

そこで正規化ためのシグナルを僕たちの側から Google に送ることが重要になってくるのです。

Google 検索で利用可能な正規化方法は以下のとおりです。

  • 使用するドメインを指定する
  • rel=canonical <link> タグ
  • rel=canonical HTTP ヘッダー
  • 301 リダイレクト

AMP を別 URL で配信する場合も正規化が必要です。
同等のコンテンツを持つページが2つ存在することになるからです。

具体的な設定方法も含めて、Google の重複コンテンツの扱いを正確に理解するためにも、ヘルプ記事を一読してください。

もっとも重複コンテンツについて熟知していたとしても、読む価値は十分にあります。
たとえば、サイトマップは、「rel=canonical マッピングに比べると、Googlebot に対するシグナルとしては効果が弱い」と Google が公式ドキュメントとして残しているあたりは今までにはなかったこと(のはず)です。

[H/T] Aleyda Solis