Googleのゲイリーに、RankBrain・クリックデータ・AMP・アプリetc.について質問してみた【オーストラリア編】

5月にオーストラリアのアデレードでBig Digital Adelaideというカンファレンスが開催されました。
このときに、GoogleのGary Illyes(ゲイリー・イリェーシュ)氏に Woj Kwasi氏が1対1でインタビューし、それをブログに公開しています。

Wojさんから許可を得たので、一部ではありますが、そのインタビュー記事を僕のブログで紹介します。
RankBrainや検索結果クリックデータ、AMP、アプリなど興味深い部分に絞って翻訳したのできっと参考になるはずです。

Gary Illyes

RankBrain

Q. RankBrainが、どうやってGoogleがクエリをより適切に理解できるようにしているのかを説明してもらえますか? コア アルゴリズムとどんなふうに調和しているのでしょうか?

(3番目に重要なアルゴリズムと言われているが)、どの側面から見るかによってその重要性は変わってくる。ほとんどすべてのクエリに影響を与えるので、重要なランキング要因だ。

多くの場合、検索結果はコア ランキング アルゴリズムによってすでに順位付けされているから、クエリスタックに対してRankBrainは何もしない [鈴木注: “クエリスタック (query stack)”がどんなものかはっきりしないのですが、たぶん、クエリに対して、一連のアルゴリズムがスコアリングしたプロセスまたはその結果だと推測します。]

しかしこれまでに見たことがないクエリ ―― 本当に長くて複雑なクエリ ―― に対しては、ユーザーにとって何が最も適切かをとても上手に推測できる。

RankBrainがやっていることというのは、事前に与えられた訓練データに基づいたクエリを見て、個々のクエリに対して最も適切な結果を提供するために設定された結果から予測しようとすることだ。

否定系のクエリを本当に上手に解釈することもできる。たとえば”Can I beat Mario without using a walk-through?”(攻略法なしでマリオブラザーズをクリアできるか?)というクエリでは、従来は、クエリの中にある”without”(〜なしで)を我々のアルゴリズムが理解することはとても難しかった。たいていは無視してしまう。RankBranでは、そういった種類のクエリを上手に扱える。

RankBrainはオフラインのアルゴリズムだ。新しい訓練データとともに時々リフレッシュされる。

検索結果のクリックデータ利用

Q. 検索結果をランキング付けするときに、クリック率と同様に検索結果への直帰もGoogleは考慮しているというのは本当ですか?

それは本当によく聞かれる質問だ。すべてのカンファレンスで聞かれる。

クリックは一般的に、非常にノイズが多いシグナルだ。クリックデータから観察調査しようと取り組んだことがある。難題を一刀両断に解くようなものだ。

(本来の使い方とは異なる目的で)検索結果を取得しランキングデータを集めようとする人がものすごくたくさんいる。理由が何であれ、そういう人たちは検索結果のリンクを自動でクリックしようとする。これは、とても乱雑な状態を作り出す。

制御した実験を行う際には、たしかに我々はクリックデータを見なければならない。ランキングアルゴリズムの変更を実施する前に我々が通常やることは、1%のユーザーを切り離して、その人たちに新しいアルゴリズムやそのアルゴリズムの一部によって修正された結果を見せて、その結果を気に入るかどうかを調べることだ。

こういった場合は、クリックした後の滞在時間が長いとか検索結果に直帰したとかなどを実際に調べている。

だが一般的には、さっき言ったようにクリックデータはとても乱雑だ。

パーソナライズに関して言えば、クリックデータを好んで使っている。はっきりしているからだ。

ボットの割合

Q. インターネットのどのくらいの割り合いが、ボットに対して本当の人間ですか?

面白い質問だ。

ビッグデータからいうと、だいたい「30%対70%(人間:ボット)」の割り合いだ。

モバイルもPCも同じくらいだ。

したがって、検索結果を不正に取得しているボットを我々は絶えず抑えようとしている。ボットをだますために、ウソの検索結果を見せることもときにはある。

我々にとってボットは大きな問題ではないが、注意して監視すべきものではある。

そんなに激しいものでなければ、たいていはアクションを起こすことはない。だが激しくなってユーザーの検索体験に被害を与えるようならブロックする。

透明性

Q. 昨年2月に透明性をより高めるとGoogleは公表しました。これはGoogleにとって優先事項ですか? 透明性をもっと高めるべきだと考えていますか?

範囲がとても広い質問だ。透明性はとても重要だと思うが、透明性を高めることによって我々の運営が損なわれないようにもしなければならない。

モバイルに関してはどうしていくかを公表し続ける。通常、今までにはやらなかったことだ。新たなことを公開するのはGoogleでは簡単なことではないし間違ってしまうこともたくさんあるから、きちんと機能するまでは決して事前にアナウンスすることはなかった。

モバイルに関しては、絶えず取り組んでいく。

モバイルフレンドリーの更新であろうがAMPであろうがApp Indexingであろうが、(モバイルに関しては)実際に事前にアナウンスしてきた。Google I/Oでもかなりの事前アナウンスがあった。

改善の余地があるかどうかだって? もちろんだ。改善の余地は常にある。

改善に取り組んでいるところだ。報道発表にもっと多くのメディアを巻き込みたい。たとえば、米国以外の国にも広げたい。報道関係やブロガーへのリーチも広げている。

ウェブ vs. アプリ

Q. モバイルウェブよりもモバイルアプリの開発に投資したほうがいいビジネスはありますか?

答えは「Yes」だと思うが、ものごとに例外は付きものだ。

私自身の観点から見れば、一般的にはモバイルウェブのほうが重要だ。なぜならアプリにおいては、常に”付加物”があるからだ ―― アプリをダウンロードしてインストールするという追加のステップが必要になる。

Instant Apps [鈴木注: Instant Appsはこちらで] がおそらく状況を多少は変えるだろうが、アプリの情報にアクセスできるようになる前にはやはり、アプリの一部分をダウンロードしてインストールしなければならない。

ウェブサイトではこういったことは必要ない。すぐにコンテンツを利用できる。Facebookだろうがなんだろうがリンクをタップするだけだ。

AMP

A. どんな状況でAMPを考慮すべきですか?

AMPは我々にとってもっともっと重要になってくると思う。

実に遅いウェブに私たちは住んでいる。特に、自分がいる国にエッジサーバーがないほかの国のコンテンツにアクセスするときは特に遅くて、何かが表示されるまで長い間待つだろう。

たとえば私のお気に入りのニュースサイトは、ここオーストラリアでは表示に20秒もかかる。私のデータは2つの海と少なくとも3つの大陸を超えていかなければならず、それが表示や体感速度を遅くさせる。

AMPでは、自分の国のローカルサーバーあるいは最も近いエッジサーバーにコンテンツがキャッシュされるし、AMP化されたページは通常のページよりもずっとずっと軽量なので、コンテンツ発行者はこんなふうな遅い状況を避けることができる。

音声検索

Q. 音声検索で使われている語句や用語はテキスト入力とどんなふうに違っていますか?

テキスト入力で検索するときは、クエリはとても短い。なぜなら入力するのはみんな好きじゃないし、スマホでタイプするのは楽しいことじゃないからだ。

しかし音声検索では、ユーザーは質問を丸ごと、そのままの文で言う。だから、音声検索はもっとずっと長くなる傾向にある。また数語ではなく、自然な話言葉が使われる傾向にもある。

これは状況を変える。自然な言葉が使われても、短いクエリが使われたときと同じ結果を我々は取得したいと考える。クエリにはそれほど影響しないと考える。しかし、SEOの実験をするには面白いかもしれない。

以上です。
特にインパクトがあったのはどれだったでしょうか?

この記事では一部分だけの紹介ですが、全文はKwasiさんの元記事をお読みください。

Gary Illyes Interview – Let Me Google That For You

Thank you, Kwasi! :)