Google検索のランキングシステムのソースコードが流出!?

[レベル: 上級]

Google 検索の API と思われる内部ドキュメントが外部に出てきました。

本物の可能性が高い

SparkToro の共同創設者で CEO の Rand Fishkin(ランド・フィッシュキン)氏のもとに、Google 検索の API だというドキュメントが匿名のソースからもたらされました。
📝すずき補足:SEO を長らくやっている人は知っているはずですが、フィッシュキン氏は SEO 界の第一人者でした。現在は、事情があって SEO からは離れています。僕は見知った仲ですが、ホントすごい人。

フィッシュキン氏は、リークされた文書が本物であると信じるいくつかの理由を挙げています。

  • 過去の知識との一致: 文書内の多くの主張は、Google とDOJ(アメリカ合衆国司法省)の訴訟のなかで明らかになった情報や、Google の運営に関する他の既知の詳細と一致している。
  • 元 Google 社員による確認: フィッシュキン氏は 元 Google 社員に直接コンタクトをとり、文書が本物であり、Google の社内 API ドキュメントの基準と一致しているようにみえることを確認した、
  • テクニカル SEO 専門家による検証: 著名なテクニカル SEO 専門家である Mike King(マイク・キング)氏は、文書をレビューし、自身の専門知識と Google のシステムに関する知識に基づいて、文書の信憑性を確認した。
  • 内部の一貫性と詳細さ: 文書自体は非常に詳細で、技術的に健全であり、Google の社内ドキュメント慣行と一致しており、その信憑性をさらに裏付けている。

これらの要素を総合的に判断し、フィッシュキン氏はリークされた文書はおそらく本物であり、Google の検索運営に関する貴重な洞察を提供すると結論付けています。

【UPDATE (2024/05/30)】
本物であることを Google が認めました。
The Verge が報じています。

検索結果のクリックデータや Chrome ユーザーの行動はランキング要因?

ドキュメントには、たとえば次のように推測できるモジュールが含まれています。

  • 検索結果のクリックを元にしたシグナル
  • Chrome ユーザーの行動

どちらも、ランキングシグナルとしては利用していないと Google がたびたび否定してきた要因です。

そのほかにも、次のようなモジュールが存在します。

  • サイトオーソリティ:僕たちが使う、ドメインオーソリティか?
  • ホストエイジ:ずっと昔に問題になったSandbox?
  • 評価を下げるシグナル:リンク先と合致しないアンカーテキスト、完全一致ドメイン、ポルノなど
  • 著者:コンテンツに関連する著者の情報を格納
  • 小規模な個人サイト:どう扱うかは不明

本当に本物か、本物だとしても使われているかどうかは不明

本物だという信憑性がかなり高いとはいえ、本当に本物だという証拠はありません。
また、本物だったとしても、ドキュメントに含まれているモジュールが現在稼働しているかどうかはわかりません。
さらに稼働していたとしても、どのくらいの重み付けがなされているかも不明です。

ということで、確実性を保証できない情報、しかもリークされた情報をばら撒くのは控えた方がいいように思うので、ドキュメントの中身についてのこれ以上の詳細にはこの記事では触れません。

詳しく知りたい方は、リークに最も近い 2 人の人物の解説記事をお読みください。

API のソースコードは GitHub で公開されています。
コードを読める人は実物も参照するといいでしょう。

【2024/05/30】
Google の広報が Search Engine Land にコメントを出しました。

We would caution against making inaccurate assumptions about Search based on out-of-context, outdated, or incomplete information. We’ve shared extensive information about how Search works and the types of factors that our systems weigh, while also working to protect the integrity of our results from manipulation.

断片的な情報、古い情報、または不完全な情報に基づいて、検索について不正確な憶測をしないようご注意ください。Google は、検索の仕組みやシステムが考慮する要素の種類について広範な情報を共有すると同時に、操作から検索結果の整合性を保護するよう努めています。