DOJ裁判文書で明らかになったGoogleの主要なランキングシグナル

[レベル: 上級]

昨日の記事では、独占禁止法違反に問われている Google の米連邦裁判で提出された文書を取りあげました。
この文書には、Google のランキングシグナルに関する内部情報も多く含まれています。

Mary Heynes(マリー・ヘインズ)氏が、この文書の内容を精査しまとめています。
この記事では、ヘインズ氏の分析の主要点を紹介します。

概要

米国司法省 (DOJ) 対 Google の裁判文書によると、Google のランキングシステムはユーザーインタラクションデータに大きく依存していることが明らかになりました。

クリックやユーザーの行動といったシグナルは各ウェブページごとに保存され、RankEmbed BERT のような AI モデルのトレーニングに使用されます。
現在では、ウェブページ自体のコンテンツが、ページランクよりも重要な品質シグナルとなっています。

主要ポイント

  • 過去 15 年間、Googleが検索順位を改善するための主要な方法は、検索結果に対するユーザーインタラクションから学習することだった。
  • Google のインデックスにあるすべてのウェブページには、固有の「DocID」が割り当てられ、そこにはユーザークリック、品質と権威性の指標、クロールデータ、スパムスコアなどのシグナルが保存される。
  • ランキングシグナルには、ページが受け取るクリック数や使用された検索語句のような「生」のシグナルと、品質、人気度、そして RankEmbed BERT のような深層学習モデルからの出力を測定する「トップレベル」のシグナルが含まれる。
  • 「Glue」と呼ばれるシステムが「スーパークエリログ (super query log)」として機能し、クエリ、ユーザーの場所とデバイス、結果ページに表示される内容、クリック、ホバー、ページ滞在時間などのユーザーインタラクションに関するデータを収集する。
  • AI モデルの RankEmbed BERT は、70 日分の検索ログと人間の品質評価者によるスコアを組み合わせてトレーニングされ、自然言語の理解を深め、特にロングテールクエリの検索結果を向上させる。
  • 検索結果のユーザー行動はウェブサイトだけでなく検索結果の各機能(AI Overviews、マップ、People Also Ask など)にも及び、ユーザーの関与の仕方からシステムが学習して有用な結果を予測する。
  • 現在、Google の品質シグナルのほとんどはウェブページ自体から得られており、PageRank は多くのシグナルの1つに過ぎず、オンページ要因よりも重要視されていない。
  • 品質や人気度のシグナル、サイトのスパムスコアを含むユーザーデータは、Googlebot が新規および更新されたコンテンツを見つけるためにウェブサイトをクロールする頻度に直接影響する。
  • 裁判文書は、ランキングに使用される「人気度」シグナルが部分的に Chromeの訪問データに基づいていることを示唆しており、Chrome ブラウザ内でのユーザーアクティビティが利用されていることを裏付けている。

◆◆◆
Google がユーザー行動をランキングに反映させているのは、もはや疑いようのない事実と言ってよさそうです。
さらには、Chrome ユーザーのアクティビティも利用していることもほぼ確実です。

次の言及が裁判文書にあります。

Two exhibits suggest that popularity is based on “Chrome visit data” and
“the number of anchors,”

2 点の証拠資料は、人気度が「Chromeの訪問データ」と「アンカー数」に基づいていることを示唆している。「アンカー数」は、ページ間のリンク数を定量化する指標であり、

Chrome でのユーザー行動をランキングシグナルとして利用しているなら、Google としては Chrome をますます売却するわけにはいかなくなります。