OpenAI、ChatGPT強化のためにGoogle検索データを利用か?

[レベル: 上級]

OpenAI は、サードパーティサービスである SerpApi を介して Google 検索からスクレイピングしたデータを使用し、ChatGPT のリアルタイムの質問への回答能力を強化していると The Information が報じています。

The Information の記事は有料購読ですが、独自情報も追加して Tom’s Guide が説明しているので、こちらをもとに概要を紹介します。

SerpApi 経由で OpenAI が Google 検索をスクレイピング

OpenAI は、SerpApi というウェブスクレイピングサービスを利用して Google 検索からデータを取得し、それを ChatGPT のトレーニングと機能強化に役立てているといいます。
このデータは特に、ニュース、スポーツ、金融市場に関連するリアルタイムの質問に使用されているようです。

SerpApiの顧客には Meta や Apple、Perplexity が含まれるとも報じられています。
SerpApi のサイトに以前あった OpenAI への言及は後に削除されました。

元 Googleエンジニアである Abhishek Iyer(アビシェイク・アイヤー)氏による実験では、Google のインデックスにのみ表示されるダミーのウェブページを作成し、それについてボットに質問することで、ChatGPT が Google 検索スニペットを使用していることが示唆されました。

ChatGPT が Google のインデックスをスクレイピングしているとことを疑わせる実験は、他にもいくつもあります。
Aleyda Solis 氏の実験もそのうちのひとつです。

もっとも、Google でのランキングと ChatGPT のランキングのオーバーラップはわずかであり、ChatGPT が Google 検索を密かに利用しているとは判断しづらいという ahrefs の調査データも存在します。

米司法省の対 Google 反トラスト訴訟で提出された文書によれば、OpenAI は以前に、検索インデックスへのアクセスをGoogle に要請したとされています。
しかし、その時点では Google は拒否しました。

現時点でどうかはともかくとして、Google 検索のインデックスへのアクセスを OpenAI が少なくとも過去には求めていたことは確かです。

また、OpenAI の Nick Turley(ニック・ターリー)は、自社の目標はトラフィックの約 80 %を独自のインデックスから提供することだと法廷で証言しました。
しかし、長期的には達成可能だとしても、現状ではその達成にはほど遠いと認めています。

こうしたことからも、外部ソースからのウェブのインデックスデータを OpenAI が必要としている可能性が伺えます。

◆◆◆

合意なしに、Google 検索を OpenAI がもし本当にスクレイピングしているとしたら、Google が何らかの対処を実行しそうな気もしますがどうでしょう。
合意のうえでインデックスデータを供与しているとしたら、どちらからかの発表がない限りは真相はわかりませんね。