AIトラッキングツールは一貫性に欠け信用できない? ChatGPTやGoogle AIが同一ブランドを2回推薦する確率は100分の1未満

[レベル: 上級]

SparkToro と Gumshoe.ai が実施した調査によると、ChatGPT や Claude、Google AI など主要な AI ツールがブランドや製品を推薦する際に、本質的に一貫性を欠いていることが明らかになりました。

1 in 124: Ask Google's Al the same question 124 times, and you're likely to get only 2 answers with the same brands
[124 分の 1:Google の AI に同じ質問を 124 回投げかけると、同じブランドが(順不同で)含まれる回答が得られる確率は、わずか 2 回分に留まる可能性がある]

調査概要

こうした AI ツールは決定論的な検索エンジンではなく確率的エンジン (probabilistic engines) であるため、同じ結果リストや順序を 2 回連続で出力することはほとんどありません。
その結果、正確なAI ランキングを追跡できると主張するマーケティングツールは、統計的に誤解を招くものだと、調査結果を公表した SparkToro の Rand Fiskin(ランド・フィッシュキン)氏は主張しています。

一方で、可視性パーセンテージ (visibility percentage) が有意義な指標であることをこの調査は裏付けています。

数十回から数百回のプロンプトを横断的に集計することで、マーケターはブランドが AI の「検討集合」にどれくらいの頻度で現れるかを把握できます。
個々の回答における順序はランダムであるものの、出現頻度は AI の学習コーパス内におけるブランドの存在感を示す、統計的に妥当な代理指標となりえます。

調査結果の主要ポイント

調査結果の主要点をまとめます。

極端な回答の不一致

  • 同一リストは稀:ChatGPT や Google AI が、同じプロンプトに対して同一のブランドリストを 2 回提供する確率は 100 分の 1 未満である。
  • 順序はランダム:同じリストが同じ順序で表示される確率は 1,000 分の 1 未満である。
  • 出力のばらつき:不一致は、選ばれるブランド、順位の並び、リストに含まれる項目数という 3 つの側面で現れる。

AI ランキングの誤認

  • 「唯一の正解」は存在しない:AI ツールは “スパイシーなオートコンプリート”(※高度な予測能力を揶揄した表現)であり、固定された基準に基づいて製品を推奨するのではなく、次に来る可能性が高いトークンを予測しているに過ぎない。
  • 無意味な順位付け:単一の AI 応答におけるブランドの順位を追跡することは、ほぼ毎回順序が変わるため徒労に終わる。

プロンプトの多様性と中心的な意図

  • 人間の創造性:実際のユーザーは同じキーワードをほとんど使わない。人間が作成したプロンプトの 意味的類似度は 0.08 に過ぎず、これは「宮保鶏丁(クンパオチキン)」とピーナッツバターの類似度に匹敵する。
  • 意図の一貫した検出:表現が大きく異なっていても、AI ツールは根底にある意図を識別する能力に優れており、比較的安定したブランド推薦セットを返す。

可視性 %:実用的な指標

  • 集計による価値:60〜100 回以上 の実行結果においてブランドがどれだけ頻繁に現れるかを測定することで、統計的に有効な「可視性パーセンテージ (visibility percentage)」を算出できる。
  • 業界による影響:選択肢が少ない狭い分野(例:ロサンゼルスのボルボ ディーラー)では可視性は安定しやすく、選択肢が多い広範な分野(例:SF 小説)では変動が大きくなる。
  • ツール間の一貫性:トップクラスのブランドは、具体的な順位が大きく変動しても、モデル全体で 60〜75% の可視性 を維持することが多い。

マーケターへの提言

調査結果を踏まえて、次のようにフィッシュキン氏は提言しています。

透明性と公開レビュー可能なデータを欠く「AI SEO」や「ランキングトラッキング」のサービスやツールを販売するベンダーは避けるべきである。

同時に、AI の回答に自社ブランドが表示されなかった場合でも、最終的に表示されるまで何度か聞いてみることも重要だと助言しています。

LLM による回答の順位や引用をトラッキングすること自体が無意味なわけではありません。
しかし、LLM の本質は、事実を正確に抽出するデータベースではなく、確率に基づいた「予測モデル」であるという前提を忘れてはいけません。

回答の非一貫性に加え、今後は Google の Personal Intelligence に代表されるパーソナライズ化が加速することが予想されます。
これにより、計測ツールが取得する「標準的な回答」と、個々のユーザーが手にする「パーソナライズされた回答」の乖離はさらに拡大するでしょう。

順位という不安定な指標に固執するのではなく、自社ブランドが AI の回答(検討セット)の中にどの程度の頻度で出現するかを測る「可視性パーセンテージ(Visibility %)」が、実務において信頼に足る KPI になるというのはそのとおりかもしれません。