Googleには複数のインデックスが存在する

Googleは、インデックスのデータを複数のパーティションに分割して管理しているようだと、WebmasterWorldでのtedster氏の投稿を紹介したことがあります。

その後、tedster氏は別のスレッドでGoolgeのインデックスデータの分割について私見を語っています。

あくまでも自分独自の推測だと断ってはいるものの、Googleのシステム内部に興味があるWebマスターにとっては非常に刺激的な分析なので、取り上げることにします。


インデックスが複数に分割されていることを表す一例は、「supplemental index(補足インデックス)」です。

補足インデックスは、低いPageRank、更新したページの古いコピー、ほぼ重複しているコンテンツ、新しいサイト(特に内部ページ)が、ガラクタ扱いで閉じ込められるインデックスで、通常の検索結果には表示されません。
補足結果(supplemental results)は廃止されましたが、補足インデックスそのものがなくなったわけではないようです。

例に挙げた補足インデックスに格納される条件は、さらに個々に独立したパーティションに分けられます。
補足インデックスに捕らわれても、どれかひとつでも改善されれば抜け出すことができる可能性があります。
新しいドメインが、以前よりも早くランキング入りできるのが、それを暗に示しています。

補足インデックスを細かく分けて処理を高速化することで、大量のインデックスを扱えるようになり、補足結果をなくすことができたのかもしれません。

補足インデックスは、マイナスな要因を含むパーティションですが、プラスな要因を含むパーティションもあります。
これは、WemsterWorldのメンバーのwhitenight氏が、“ghost data-set(ゴースト・データセット)”と名づけたパーティションです。

ghost data-setには、比較的信頼度の高いドメインが格納されます。
すくなくとも、サイトリンクが表示されるくらいのサイトが該当します。
かつ、ghost data-setにはドメインのルートだけが格納されます。

ghost data-setの存在を示すのが、10/31に発生したGoogleのバグによる大変動です。

Matt Cutt氏は、原因を次のように説明しました。

Some data went into the index without all of our quality signals incorporated

“quality signals(品質を表すシグナル)”のすべてが統合されることなく、データがインデックスに入ってしまった。”

この“quality signals”のひとつが、まさしく”ghost data-set”ではないでしょうか。

ghost data-setが統合されなかったために、1位表示だったサイトのトップページやサイトリンクがSERPから消滅したと考えられます。

Googleが複数のインデックスを管理していると推測できる理由は、他にもあります。

site:コマンドで調べるインデックス数にしても、Goolgeウェブマスターツールで知ることのできるインデックス数にしても、不安定です(特に最近)。

複数のインデックスがあることが、インデックスされたページの評価やレポートの作成を複雑にしているのでしょう。

また、1日の中でも順位が大きく変わるヨーヨー現象も、ウェブページが複数のパーティションを行ったり来たりすることによって引き起こされていると考えると納得がいきます。

しかし、インデックスを複数に分割して同時進行することで、高速に処理できるという大きなメリットがあります。
「1,000,000,000,000」ものWebページを発見したGoogleとしては、必要不可欠の技術ではないでしょうか。

複数のパーティションに分かれたインデックスを並行して作成し、最後に1つにまとめてできあがったのが、僕たちが普段見ているSERPのようです。


テクニカルなテーマだったので「へぇ?、だからどうしたの?」という読者さんが多そうですが、SEO塾の石崎さんには喜んでもらえたのではないでしょうか?(笑)