GoogleはAI大規模言語モデルのトレーニングのために検索データを利用している

[レベル: 上級]

Google は、自社の検索エンジンからのデータを AI 大規模言語モデルの一部のトレーニングのために利用しているそうです。

Google のエンジニアが公聴会で宣誓証言

The Information によると、Google は、自社の検索エンジンからのデータを AI 大規模言語モデルの一部のトレーニングのために利用し、信頼でき権威のあるページの判断およびスパムサイトの評価を下げることに役立てているとのことです。
Google の検索独占に関する公聴会で同社エンジニアが宣誓証言しました。

また、AI Overview を起動するかどうかの判定にはユーザーフィードバックのデータが利用されていることも明かされました。

In a separate internal email relating to training Google’s Gemini model, a Google employee wrote that search “signals will be very helpful for us to upweight good authoritative pages and downweight the spammy untrustable ones.”

Google の Gemini モデルのトレーニングに関する別の社内メールで、ある社員は「検索シグナルは、信頼できる権威あるページの重み付けを高め、スパム的で信用できないページの重み付けを下げるのに非常に役立つ」記している。

The lawyer, Karl Herman, also showed deposition testimony from Google senior director of engineering Phiroze Parakh, who said that search data was used to pretrain the model that generates the AI Overviews feature in Google Search and that user feedback data was used to train the model that decides whether to trigger that feature in response to search queries.

弁護士カール・ハーマン氏はまた、Google のエンジニアリング担当上級ディレクターであるフィローズ・パラックの宣誓証言も提示した。パラック氏は、Google 検索の「AI Overviews」機能を生成するモデルの事前学習に検索データが用いられ、検索クエリに応じてその機能を起動するかどうかを判断するモデルの学習にはユーザーフィードバックデータが使用されたと述べた。

従来の SEO は AI 検索にも有効

検索データを LLM のトレーニングに Google が利用しているというのは、当然にも思えます。
信頼でき有用なコンテンツを上位表示するように検索は設計されているのですから、学習データとしては最適です。

この事実を踏まえると、従来の正攻法での SEO の取り組みが、AI Overview や AI Mode など AI が組み込まれている Google の AI 検索にも有効であると言えます。

[H/T] Glenn Gabe