コピペしたスクレイピングサイトをGoogleはやはり見抜けないのか

[対象: 中〜上級]

無断でコンテンツをコピーして転載する、いわゆるスクレイピングがオリジナルのページよりも検索順位が上になってしまう事件がまたもや発生しました。

BuzzFeedが詳細を報じています。

今回問題となったのは、The Vergeというテクノロジーやサイエンス、アート、カルチャーなどのニュースをカバーするメディアサイトです。

The Vergeは、“For Amusement Only: the life and death of the American arcade”という記事を1月16日に公開しました。

すると、The Huffington Postというこれまたニュース系のサイト(有名サイト)が、自分たちのサイトで1月21日にその記事を掲載しました。

記事のタイトルは“The Life And Death Of The American Arcade”です。

先頭の“For Amusement Only:”を取り除いてあとは同じです。

ところが記事タイトルの「The Life And Death Of The American Arcade」で検索すると、1位に出てくるのは転載したHuffington Postのページです。

オリジナルであるはずのVergeは3位です。

転載したHuffington Postが1位でオリジナルのVergeが3位になっている検索結果

さら悪いことにはニュース検索ではVergeはまったく出てきません。
Huffington Postは1位です。

もっともHuffington Postは許可を得ていない転載といっても、全文を丸々コピーしたのではなくVergeの元記事の冒頭部分を抜粋しただけです。
しかも抜粋ですから全文を読んでもらうためにVergeの元記事へリンクを張っています。

公開したのはVergeの5日後です。

さらにこの問題が物議をかもした後に抜粋をたった1行の文に減らしました。

にもかかわらずにいまだにオリジナルが負けてしまっている状況は改善されていないのです。
【補足】この記事を書いている今朝の時点での状況です。

許可されたものだろうが無断だろうが複製したコンテンツが別のサイトに存在した場合、Googleはオリジナルを上に出すように努力しています。
しかし依然として完璧ではないようです。

加えてコピペサイト対策も狙ったパンダアップデート導入されてからまもなく2年が経過しようとしています。

努力は認めますがオリジナルとコピーの識別はGoogleにとって依然として難しい問題のようです。

P.S.
Huffington Postは、Vergeの許可こそとっていませんが、ほんの一部の抜粋だけだったし元記事へのリンクを張ってオリジナルの所在を明らかにしています。
したがって正確に言えばスクレイピングではありません。

僕の記事のタイトルは注目されすいように意図して付けたものです(不快に感じたらごめんなさい)。

逆に一部抜粋だけで完全転載ではない点と、Vergeの記事を紹介したページにたくさんのコメントが書き込まれている点で複製ではなくオリジナルコンテンツとしてGoogleが認識しているのかもしれません。

もっとも記事タイトルをVergeとほぼ同じにするなど、Huffington Postは意図的にそれを狙っていた可能性もあると今回の問題を批判したBuzzFeedは疑っています。