「重複コンテンツ・重複URL」のおさらい

Google、Yahoo、Microsoftの大手検索エンジンが、重複コンテンツ問題解消のために「rel=”canonical”属性」を共通で導入することになりました。

いいタイミングなので、「重複コンテンツ」についておさらいしておきましょう。

重複コンテンツ(英語では”duplicate content“)」とは、ページの内容(=コンテンツ)がまったく同じにもかかわらず、URLが異なるWebページのことです。

僕たち人間のユーザーにとっては、普通は問題になりません。

しかしコンテンツが同じでもURLが違ければ、サーチエンジンは、独立した別々のページとして認識します。

サーチエンジンは、ダブっているとみなしたページを、SERPに表示しないようにフィルタリングし(ペナルティではない!)、代表と判断したページだけを表示します。

どれを代表として判断させるかを分からせるのも容易ではないのですが、問題は別のところにもあって、1つには「クローリングの妨げ」、もう1つには「被リンクの分散」につながることです。

ある1つのページに割り当てられるURLが、重複URLによって10個存在していたとしましょう。

200個の商品を販売しているネットショップだったとすると、「200×10」で2,000ものURLができあがってしまいます。

実際には200ページで済むはずなのです。

また、10個のURLにバラバラにリンクが張られていたとしても、それらのリンクパワーが集約されることはありません。
個別のページに対してPageRankやアンカーテキストが渡り、分散してしまいます。

ありがちなのは、wwwありのドメイン名とwwwなしのドメイン名で中身が同じサイトを公開してしまうことです。

他には、index.htmlありとindex.htmlなしの問題がよく発生します。

これらの問題に対しては、301リダイレクトによる正規化(Canonicalization)で対応するのが一般的です。

ECサイトで起こりがちなのが、個別の商品に割り当てられるURLの重複です。

同じ商品を説明したページ(=コンテンツが同じページ)でも、直接アクセスした場合・カテゴリからたどっていた場合・それとはまた別のカテゴリからたどっていった場合・ショッピングの途中でセッションIDが付加される場合など、複数のURLが出来上がることがあります。

  • http://www.example.com/product.php?item=swedish-fish
  • http://www.example.com/product.php?item=swedish-fish&category=gummy-candy
  • http://www.example.com/product.php?item=swedish-fish&category=made-in-sweden
  • http://www.example.com/product.php?item=swedish-fish&trackingid=1234&sessionid=5678

「動的URL(Dynamic URL)」が代表例ですね。

robots.txtでインデックスさせたくないURLを除外したり、動的URLを静的URLに書き換えたり、優先するURLだけをXML Sitemapに記述したり、Yahoo!であればSite Explorerで余分なパラメータを削除したり、といった方法で対応できますが、難しく感じるサイト管理者もいることでしょう。

Googleは、重複コンテンツに割り当てられるURLのパターンを分析して、複数の動的URLが生成されても対処できるようになっています。

とはいえ、動的URLの構造が複雑であれば完全に信頼できるとは限りませんし、Googleの話であって、Yahoo!やMicrosoftには該当しません。

このように、重複コンテンツはサイト管理者にとってもサーチエンジンにとっても、厄介な問題なのです。

サイト管理者は、重複コンテンツを発生させることのないよう、サイトの立ち上げ前から入念にチェックしなければなりません。