GoogleがSGEで使っているLLMは改良版MUMやPaLMほか複数のLLM

[レベル: 上級]

日本でも試験運用が始まっている Google の SGE は、複数の LLM をベースにしています。
こうした LLM には、MUM や PaLM 2 が含まれます。

MUM の改良版

インドの Google 検索ゼネラルマネージャである Puneesh Kumar 氏は HindustanTimes の取材に次のようにコメントしました。

通常、（検索は）1つの質問を小さな質問に分解し、膨大な情報から関連する情報を探し出して、自分で組み立てることになるでしょう。生成型AI検索は、その重労働の一部を代行してくれます。

そのうえで、この背後には MUM の改良版や PaLM 2など、複数の大規模言語モデル (LLM) が作動していることに Kumar 氏は言及しました。

単一ではなくいくつかの LLM を SGE がベースにしており、そのなかには MUM と PaLM 2 が含まれていることは、今年 5 月の Google I/O で SGE 構想を Google が発表した時点で知られていました。
ですが、あらためて明確になりました。

加えて、初期の MUM ではなく改良された MUM とのことです。
詳細は不明ですが、性能を強化しているのは確かなことでしょう。

スナップショットは裏付けできる情報を強調

スナップショットは、表示する一連の検索結果で容易に裏付けできる情報を強調するように設計されている

このようにも Kumar 氏は付け加えています。

SGE が生成する概要である「スナップショット」は、SGE が独自にゼロから生成するというよりは、（信頼できる？）サイトの関連するページから取得した情報を集めてまとめているような印象を受けます。
強調スニペットのようにそっくりそのまま引用するのではなく、引用元を微妙に書き換えているパターンも多く見受けられます。

実際に存在するコンテンツを強調することで、ハルシネーションの発生を抑止しているのかもしれません。

裏付けとなる情報源を特定できるように、スナップショットには関連するウェブページへのリンクが付くようになります。
米国の SGE にはすでに導入済みです。
日本とインドでは、数週間後には導入される予定です。

SGE が起動しないクエリ

クエリによっては、SGE はスナップショットを生成しません。
特に、金融や健康に関する、いわゆる YMYL クエリの場合です。

これに関して、Kumar 氏は次のように述べています。

たとえば、金融や健康に関するクエリの場合、ユーザーに表示する前に非常に高い確信が必要です。そのような場合、生成型 AI は最初からまったくトリガーされない可能性がありますが、時間とともにユーザーからのフィードバックや入力を集めるにつれ、モデルの微調整を続け、それらの体験を明らかにしていきます。

確信が得られない場合は、SGE をまったく起動しないなど、責任を持って対応します。そのモデルの学習と反復を続けていきます。

現状でも、YMYL クエリで SGE がぜったいに起動しないというわけではありません。
ただし、注釈がつきます。

YMYL コンテンツは特に高い信頼性が求められます。
SGE においても、Google　は最新の注意を払い時間をかけて情報を提供していくつもりです。

SGE は試験運用の段階です。
今後もさまざまな改良が行われるでしょう。