20万以上のURLを誤ってrobots.txtでブロック、対処策をマット・カッツがアドバイス

[対象: 中級]

WebmasterWorldフォーラムの有料エリアに投稿された質問にGoogleのMatt Cutts(マット・カッツ)氏がアドバイスしました。

Matt Cutts氏がWebmasterWorldに姿を表すのは非常に珍しいことです。
特に最近では極めて異例のことで、Search Engine Roundtableによれば実に3年ぶりだそうです。

久しぶりに登場したMatt Cuttsがどんなトラブルに対してどんなアドバイスを与えたのかをこの記事で紹介します。(有料エリアでのやりとりですが、一部だけなのでまぁいいでしょうw)

投稿者の質問

大量のURLを誤ってrobots.txtでブロックしたことが原因で検索トラフィックが減ってしまった。一刻も早く回復させたい。
どうしたらいいか?

これが投稿者の相談です。

具体的には、次のような状況でした。

  1. とても大規模なサイトで、CMSを変更するための準備として検証用のサーバーでテストを行っていた
  2. 検証用サーバーのサイトは検索エンジンにクロールされないようにrobots.txtで完全にブロック
  3. 新しいCMSへ正式に移行したが、誤って、ブロックしているrobots.txtも数日間そのまま公開してしまった
  4. ウェブマスターツールに、ブロックされたURLが急激に増えているという警告が届いて気付いた
  5. ブロックされたURLの累積が207,000に到達(インデックス数は500万以上)
  6. 運が悪いことにブロックしていたのは重要なページばかり
  7. 移行前のインデックス・ランキングの状態に早く戻したい

マット・カッツからのアドバイス

フォーラムのアドミニストレータとモデレータ、メンバーたちが思い付く対処策や自身の体験談を返すなかで、Matt Cutts氏が突如としてコメントを書き込みます。

今回のような一時的な障害からサイトが回復できるような仕組みを僕たちは実際に組み込んでいる

このように前置きしたうえで、次のようにアドバイスしています。

  • Fetch as Googleを実行して、robots.txtとサイトのトップページ、そのほか重要なページのいくつかをインデックス送信するといい
  • 207,000のURLすべてを載せたページを送信することは勧めない。
  • 普通は、待つか、最も重要なページをいくつか取得させれば、状態が復旧したことをGoogleに知らせることができるはず。

2番目は、ブロックされてしまったURLヘのリンクを列挙したページを1つ作成し、そのページをインデックス送信するという手段です。
「URL とすべてのリンク ページ」を送信時に選択すれば、リンク先ページにもクローラが訪問するようにリクエストできます。

気が利いた人なら思い付く方法ですが、Matt Cutts氏は勧めていません。
あまりにも数が多いので、無視されるか、あるいは単にGoogle的に嫌がっているのかもしれません。

結果

さてその後の状況はというと、緩やかですが回復に向かっているようです。

ただ残念ながら、Matt Cutts氏が示した手段を実行したかどうかは定かではありません。
とはいえ、同じようなことを投稿者はすでに実行していました。

  • ブロックされていた重要なページだけを記載したサイトマップを送信
  • その語、すべてのURLを記載したサイトマップを送信

もっとも回復傾向にあるものの、元の水準には至っていません。
同じような経験を持つウェブマスターたちは、リカバリまでに2、3週間ほどかかったと言っています。

6週間かかったケースもなかにはあったようです。
robots.txtでブロックしていた期間が長ければ長いほど解除に時間がかかることがあるらしく、それが影響したとも考えられます。

「不注意による検索結果への悪影響を防ぐための仕組みを導入している」とMatt Cutts氏は言っていますが、完全に元の状態に戻るにはたいていの場合は数週間はかかるのかもしれませんね。

間違えて、robots.txtでブロックしてしまったり、noindexタグを付けてしまったりというトラブルは意外に起こりがちです。
特に今回のように検証が済んで本番に移すときにそのままにしておくといったケースに多く見られそうです。
僕たちも気を付けましょう。