重複コンテンツは低品質を意味しない、しかしクロールバジェットには影響することも

[レベル: 中級]

この記事では、重複コンテンツが、サイトの品質が低いことには必ずしも繋がらないこと、しかしクロールには悪い影響を与える可能性があることを説明します。

EC サイトで重複コンテンツが不規則に発生

英語版のオフィスアワーでこんなやりとりがありました。

参加者が次のように質問します。

ECサイトを運営しています。

システム上の問題で1つのページに複数の URL が不規則に次々と割り当てられてしまい重複コンテンツが発生します。

rel=”canonical” と noindex で対応していますが、ほかに何かできることはありますか?

こういった状態は品質の面で問題になるでしょうか?

Google の John Mueller(ジョン・ミューラー)氏は次のように説明します。

まず、どうして URL が不規則に作られるのかの原因を調べたほうがいい。

中小規模のサイトであれば、多少の重複コンテンツは問題にはならない。
すべてのページを十分にクロールできる。

だが大きなサイト、特にあなたのように拡大し続ける EC サイトでは、そういった不規則にたくさん作られる URL の重複はともすれば、クロールやインデックスに悪い影響を与える可能性もありうる。
というのも、たくさんの重複コンテンツがあると新しいページや本当に重要なページを私たちは見逃してしまうかもしれないからだ。

今の状態でも Google は適切にクロール、インデックスできていると思うので大至急というわけではないにしても、原因を突き止めたほうがいいだろう。

品質という観点からも、特に心配するようなことはない。
rel=”canonical” を使うのは正しい対処方法だ。

そうは言っても、重複した URL が生成されるという仕様はどこかの時点で解決しなければならない問題だ。
完全に無視していいというわけにもいかないだろう。

「重複コンテンツ=低品質」ではない

まずきちんと認識しておきたいのは、同じページに複数の URL が割り当てられてしまう重複コンテンツは絶対的に「悪い」ものではないということです。

重複コンテンツは普通に起こりうることです。
重複コンテンツそのものが、品質が低いことには繋がりません。
まして、重複コンテンツが発生しているからといって、それだけが原因で“ペナルティ”を受けることも絶対にありません。

「重複コンテンツそれ自体はぜんぜん悪くない」ことは、先日の Google Dance Tokyo でゲイリーに直接再確認しています。

重複コンテンツが問題になっているとしたら、それはたとえば、品質が低いページばかりの場合が考えられます。
ただしこれは重複が問題になっているのではなく、大量にある低品質コンテンツが問題になっているのです。

EC サイトでバリエーションのあるアイテムの「色」だけが違うページをたくさん作るとか全国展開しているビジネスで各ページで市町村名だけを入れ替えるとか、こういったやり方は品質が低いと判断されるでしょう。
固有の価値を提供できていません。
単なるページの量産です。

全体的に品質が高いコンテンツを公開しているサイトで多少の重複コンテンツが発生したとしても、それがサイトの評価を下げる原因になることはありません。
まったく無問題です(これもゲイリーに確認)。

大規模サイトでは重複コンテンツが問題になることも

一方でクロールやインデックスの観点からは、非常に規模が大きく更新が頻繁なサイトでは重複コンテンツが支障を与える可能性があります。

URL が異なるので、実質的に同じページなのに Googlebot が繰り返しクロールしてしまうからです。
いわゆる、クロールバジェット の無駄使いが発生してしまいます。

新規に公開されたページや更新が加えられたページはすぐにクロールしてほしいはずです。
しかし、クロールのリソースが重複したページに割り当てられてしまい、あと回しになってしまうかもしれません。

規模が小さなサイトではクロールバジェットなどを気にする必要はありません。
ですが、数百万ページを超えていて、さらに拡大を続けるようなサイトでは重複コンテンツによるクロールバジェットの浪費は気にかけるべき問題でしょう。

クロールバジェットや、(この記事では触れていませんが)リンクの分散という観点からは重複コンテンツは好ましいものではありません。
rel=”canonical” やリダイレクトなどによる正規化による対処が求められます。

もちろん、重複コンテンツをそもそも発生させないという未然の対策が最重要であることは言うまでもありません。

まとめ

最後に、この記事で僕が伝えたい大切なことをまとめます。

  • 重複コンテンツそのものは低品質を意味しない、ましてペナルティはない
  • 大規模サイトでは重複コンテンツはクロールやインデックスに悪い影響を与える可能性がある
  • とはいえ、重複は好ましいものでもないので rel=”canonical” などで正規化する
  • そもそも重複コンテンツを発生させないようにすることが最重要