Google の AI 搭載検索とマルチモーダルモデルの進化

[レベル: 上級]

Google のチーフ AI サイエンティストである Jeff Dean(ジェフ・ディーン)氏がインタビューを受けました。
インタビューのなかでは、AI 検索を構築・スケールするために必要なアーキテクチャ、ハードウェア、そして思想上の転換についてもディーン氏は語っています。

ディーン氏が語った、AI を搭載した Google 検索の仕組みの概要をまとめます。

ハイブリッドな「ファネル」

AI モデルは強力ですが、常に更新され続けるインターネットをニューラルネットワークの重みに保存したり、ウェブ全体を単一のプロンプトに収めたりすることはできません。
そのため、AI 検索はファネルアプローチを採用しています。

  • 従来のパイプライン:従来の検索は膨大なグローバルインデックスに依存している。軽量なアルゴリズムで何十億ものページを数千に絞り込み、その後、より高性能の機械学習を適用して上位 10 件の結果をランキングする。
  • AI との統合:AI 検索は、この既存の高効率な取得インフラを使って、最も関連性の高いドキュメントのサブセット(例:50 〜 100 ページ)を見つける。そして、そのデータを LLM のコンテキストウィンドウに入力する。LLM は究極の合成者として機能し、取得したドキュメントを読み込んでユーザーに向けた一貫した回答を生成する。

キーワードからセマンティックな意図へ

ディーン氏は、検索における大きな歴史的転換を強調しました。
それは、厳密なキーワードマッチング(90 年代後半の標準)から、ユーザーのクエリの文字どおりの意味を緩める方向への転換です。

  • ウェブページ上の単語の完全一致を探す代わりに、現代の AI システムは深いセマンティック表現(LLM とエンベッディングによる)を使ってユーザーの根底にある意図を把握する。
  • これにより、「Restaurant(レストラン)」というクエリに対して「café(カフェ)」「bistro(ビストロ)」「eatery(食堂)」などの結果も含めるべきだとシステムが理解できる――概念的な意味が近いため。
  • 明示的なテキストだけでなく真の意図を抽出することで、AI 検索はユーザーの正確な言葉がソース素材に存在しない場合でも、高度に関連性の高い回答を提供できる。

経済的実現可能性のためのモデル蒸留

すべての Google 検索クエリに対して大規模な最先端モデル(Gemini Ultra など)を実行することは、経済的にも計算上も不可能です。
これを解決するため、Google は蒸留 (Distillation) に依存しています。
ℹ️すずき補足:LLM における Distillation(蒸留 / 知識蒸留)とは、巨大で高性能なモデルの知識を、よりコンパクトなモデルへと受け継がせる技術のこと

  1. 深い推論、数学、コーディングを理解できる、非常に有能で大規模に複雑なモデルを訓練する。
  2. 次に、これらの大規模モデルの出力とロジックを使って、はるかに小さく高速なモデル(Gemini Flash など)を訓練(「知識を蒸留」)する。
  3. これにより、Google は日常的な検索クエリに対してグローバルスケールで高度に知的なモデルを展開でき、高品質、低レイテンシー、低コストという必要なバランスを実現できる。

ハードウェアの協調設計とレイテンシーの物理的制約

AI 検索の速度は、データ移動の物理的なコストによって決まります。
AI が回答を生成するにはトークンごとにテキストを生成する必要があり、それには常にメモリへのアクセスが必要だとディーン氏は指摘しています。

  • チップアーキテクチャにおいて、実際の演算は安価だが、チップ上でのデータ移動(DRAM から SRAM へ)には指数関数的に多くのエネルギーと時間が必要。
  • AI 検索を高速化するため、Google はカスタム TPU ハードウェアと高速インターコネクトに依存しており、チップ間でほぼ瞬時にデータを共有できる。
  • これは、ディーン氏が数十年前に Google で行った歴史的な転換と重なる。つまり、検索インデックスを低速なディスクドライブから高速な RAM に移行した。
  • 現在の目標は、トークン生成のレイテンシーを削減するために、アクティブな AI モデルをできる限り高速なメモリに保持すること。

コンテキストウィンドウの拡張

検索は、膨大な量のデータにまたがるクエリを一度に理解できるよう進化しています。Google は、「コンテキスト長」、つまり AI がワーキングメモリに保持できる情報量(現在は 100 万〜 200 万トークンまで)の限界を押し広げています。

  • これにより、AI は複雑で合成を要するタスクを実行できる。たとえば、ユーザーが 1 時間分のスポーツハイライト動画をアップロードし、何がいつ起きたかを詳細にまとめた表を出力するよう AI に依頼できる
    例:マイケル・ジョーダンが 14:02 にジャンプシュートを決める場面
  • システムはもはやキーワードを検索するだけでなく、大規模なドキュメントや動画の全体を分析して正確なデータポイントを抽出する。

ネイティブなマルチモーダル性と断片化されたシステム

歴史的に、AI の研究は断片化されていました。
チームは、別々のモデルをタスクごとに構築していました――音声を文字起こしするモデル、テキストを翻訳するモデル、画像を認識するモデルなど。

  • 計算能力の内部的な制約に迫られ、Google の研究者たちはリソースを集約して単一の統合モデルを訓練する方が効率的だと気づいた。
  • これが、Gemini のようなネイティブにマルチモーダルなモデルの誕生につながった。
  • ユーザーの音声クエリをテキストに変換したり、画像を分析する前にテキストで説明したりする代わりに、モデルは生の音声波形と画像のピクセルを直接処理する。その結果、あらゆるメディアにまたがる人間のクエリに含まれるニュアンスをはるかに正確に理解できる検索エンジンが実現する。

技術的なことまで含めて、AI 検索内部の仕組みをディーン氏は説明してくれました。

そのなかでも、「キーワード対策」から「意味と構造の最適化」へシフトすることが最大の学びでしょうか。
ことさら新たな事実ではありませんが、再認識するのは悪くないでしょう。

また、マルチモーダル対応を意識することも重要です。
画像・動画・図解も AI 検索においては対象になります。
なるどころか、より一層、重みのあるコンテンツとして位置付けられるようになりました。