[対象: 中〜上級]

ナイスアイディアを思いついたGooglebotくん
Googlebotがどのようにしてウェブページへのクロールを開始するかが今日のトピックです。

Googlebotに限らず検索エンジンのロボットはリンクをたどってリンク先のページへ訪問すると言われます。
しかし正確に言うと、少なくともGooglebotにおいてはこれは正しくありません。

Googlebotは、僕たち人間のユーザーとは違って文字どおりリンクをたどってその先にあるページにアクセスしたりはしないのです。

では実際にどうやっているかというと次のようなプロセスなります。

  1. ページをクロールした際にそのページにあるリンク(URL)を発見する
  2. サイトマップで送信されたURLの情報を参照する
  3. 上の2つの情報をもとにクロールするURLのリストを作成する
  4. そのURLリストに従ってクロールを開始する

端的に言うとクロール対象のURLのリストを作成して、そのリストにあるURLに対して順番に新たにクロールを始めるのです。
僕らがよく言うように、本当にそのままリンクをたどってリンク先をクロールしたりはしていません。

GooglebotがReferrer(リファラー)を記録しない理由がここにあります。
言ってみれば直接アクセスしているわけですね。

基本的にURLを発見するのは1番目のリンクによってです。

2番目のサイトマップはURLの発見を手助けするものでクロールとインデックスを保証するものではありません。
よくご存知のとおりです。

URLの発見にはほかには、RSSフィードURLのサイテーション(ハイパーリンクなしのURLの記述)なども使われます。
PageRankとアンカーテキストは渡さないけれどnofollowの付いたリンクもURLの発見には使われます。
簡単なものであればフォームでさえ送信してしまいます。
ときには、rel=”canonical”で指定したURLも発見に使われることがあると聞いています。

このようにリンクを中心にサイトマップなどありとあらゆる手段を使ってGooglebotは貪欲にURLを見つけてリスト化します。

リストに載ったURLにはクロールの優先度が与えられます。

さまざまなアルゴリズムが複雑に働いていると思われますが優先度にいちばん大きな影響を与えるのはPageRankのはずです。
PageRankが高いURLがより優先的にクロールされるでしょう。

ほかにはそのページの更新頻度も比較的大きな要因になっていそうです。
更新頻度が高いほうがクローラが回ってくる頻度も高いでしょう。

以上のようなプロセスでGooglebotはクロールを実行します。

最初にも書いたように、リンクを発見したとしても人間のユーザーがクリックして移動するようにはその場で直接リンク先を訪れるわけではないんですね。

どこから得た情報? という疑問が出てくるかもしれません。

Googleのヘルプにきちんと書いてあります。

クロールを開始する際は、前回のクロールで生成され、ウェブマスターから提供されたサイトマップによって補強された、ウェブページの URL リストを使用します。Googlebot はこれらのウェブサイトすべてにアクセスし、各ページのリンクを検出してクロール対象ページのリストに追加します。

ヘルプの説明と、あとは僕が今までに学んできた情報をプラスして今日の記事を書きました。

ウェブサイトの日々の運用のなかでは知らなくてもまったく問題にならないことですが、SEOに取り組んでいる人なら持っていてもいい豆知識ですよね?

このエントリーが役に立ったらシェアしてください

[Ads & Featured Contrents]

次のエントリも読むとSEOにさらに強くなります。

海外SEO情報ブログTOPGoogle SEO › Googlebotはリンクをたどってクロールしたりはしない、人間のユーザーとは違う

Comments

  1. By 高(コウ) on

    毎日、拝見させていただいています高(コウ)と申します。
    いつも貴重な情報をありがとうございます。

    リンクだけでなくテキストファイルなどでURLの可能性がある情報はすべてクロールしているように見えます。
    半年ほど前ですが、担当しているクライアントのサイトのお問い合わせCGIが停止していてCGIソースがむき出しになっていました。
    ソースの中にはお問い合わせ内容を記録するtxtファイルへのパスが記載されていて、そのファイルがgoogleにインデックスされたため大騒ぎになりました。

    *** Reply from Suzuki Kenichi ***
    そうですね、テキストファイルに書かれているURLもヒントにしますね。
    これは、記事中でも言及したサイテーション(ハイパーリンクなしのURL)に相当します。
    ほかにはJavaScriptの記述もクロールしますね。
    とにかくURLっぽいものは片っぱしからクロールを試みていそうです。

  2. By こなつ on

    Web担当者など通じてよく記事を読んでいます。
    情報提供ありがとうございます。

    当記事の関連でそぼくな疑問があります。
    ご存じでしたらお教えください。

    一旦インデックスされたファイルは、クロールできない状態(どこからもリンクされていない状態)になっても、そのファイルの公開が継続される場合には、インデックスされつづけるのでしょうか。

    当記事の説明によれば、サイトマップに掲載されるようなサイト内の比較的上位階層のページでは、「インデックスされつづける」が回答になりそうです。

    しかし、もっと末端のファイルの場合はどうなるのでしょうか?

    ありがちな具体例として説明します

    —-
    ・AというHTMLを作って、XというPDFをリンクして公開する。

    ・AとXがGoogleにインデックスされる。

    ・その後、Aは継続して公開するが、Xへのリンクを削除して、代わりにYというPDFをリンクして公開する。

    ・このとき、Xは、Aからのリンクが切れただけなので公開は続いている(Xはどこからもリンクを受けていない状況と仮定する)。
    —-

     上記の様な状況が続いた場合、Xはインデックスから消えるのでしょうか?

     過去の経験からは、Xが消えないことがあるのですが、その場合には、Googleがクロールに用いるURLのリストにPDFのURLが含まれてしまった、という理解になりますが、この理解は正しいのでしょうか。直感的に、末端に位置するPDFまでクロールのURLリストに入ることは考え難いのですが。
     

    *** Reply from Suzuki Kenichi ***
    面白い質問ですね! :D

    XのPDFとYのPDFは同じURLで公開していると考えてよろしいでしょうか?
    であれば、URLがいったんインデックスされているので、次回のクロール時にそのURLの情報(PDF)はYに置き換わるでしょう。
    Xは中身としてはインデックスから消えますが、URLはインデックスに残り、中身はYになります。

  3. By こなつ on

    さっそくの情報提供ありがとうございました。

    XとYのURLは異なります。

    つまり、次のよう状態です。

    ——
    http://www.example.jp/example/a.html
    公開され、GoogleにインデックスされたHTML

     http://www.example.jp/example/x.pdf
     a.html からリンクするかたちで公開され、Googleにインデックスされた。
     その後、a.html からリンクを断たれて、なおかつ、どこからもリンクされていない。
     サーバ上に公開はされている。

     http://www.example.jp/example/y.pdf
     a.htmlからリンクするかたちで、新たに公開されたPDF。
    ——

    上記の状態が続いたときに、x.pdfは、Googleのインデックスから消えるのか残るのか?という問題です。

    *** Reply from Suzuki Kenichi ***
    その状況でも理論上はXも残ります。
    ただしXの品質が低ければインデックスから消えることも考えられます(リンクがなくなり孤立したこととは直接の関係なし)。

  4. By こなつ on

     さっそくの情報提供ありがとうございました。

     一旦インデックスされれば、その後、どこからもリンクされない状況になっても、この孤立状態になったことを理由に、インデックスから消されることはないということですね。

     経験的にわかっていることが異常な状況ではないことがわかりました。

     「理論上はXも残ります」とのことですが、Googleは、一旦インデックスされたファイルに対して、ダイレクトにアクセスして(クロールしてたどっていくのではなく)、その存在と品質を定期的にチェックしているということなのでしょうか。

     「理論上はXも残ります」の論拠となる情報が、Googleのブログ等、ネット上で公開されていればお教えください。

    *** Reply from Suzuki Kenichi ***
    特定の情報によるものではなく、過去に読んだものやGoogle社員に直接、間接に聞いたことなどをもとにして総合的に導き出した考えです。
    また恐れ入りますが、これ以上は話が込み入ってきますのでコメント欄ではお答えいたしかねます。
    確たる情報をお求めであれば、オフィスアワーでGoogleの方に直接質問することをおすすめします。
    よろしくお願いします。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA


▲ページの一番上に戻る