Googleマット・カッツが語る検索の今と未来 #PubCon Las Vegas 2013

[対象: 全員]

この記事では、PubCon Las Vegas 2013のセッションレポートをお届けします。
米GoogleのMatt Cutts(マット・カッツ)氏のキーノートスピーチです。

Matt Cuttsキーノートスピーチのパネル

Matt Cutts氏は次の6つのテーマに分けてスピーチしました。

まず昨年の状況について3テーマです。

  • Moonshot Change
  • 核になるクオリティの変更
  • コミュニケーション

続いて次の3テーマです

  • 検索の未来
  • ウェブスパムのトレンド
  • アドバイス

順に解説します。

Moonshot Change

Larry Page(ラリー・ペイジ)が「大きく考えろ、不可能なことについて考えろ」と言った変革を実施した。
(“Moonshot”は「月面探査ロケットの打ち上げ」の意。)

Matt Cuttsのスライド

ナレッジグラフ

人やモノゴトのような、世界に存在するエンティティを理解する。
同僚のAmit Singhal(アミット・シングハル)はこれを、「Things not strings」(文字列ではなくモノゴト)と呼んでいる。

キーワードに一致したものではなくクエリの背後にあるものがわかる。
York、New York、New York Times、Times Square、個々のキーワードが一致していることではなくそれぞれの違いがわかる。

【参考】

Voice Search(音声検索)

音声検索はどんどん向上している。

Conversational Search(会話型検索)

セッションをまたいだ代名詞を理解できるようになった。

Google Now

検索しなくても必要な情報を教えてくれる。
「10時にミーティングが入っているけど、道路がとても混んでいるから今すぐ出発した方がいい…」など。

(続けて、「Deep Learning」と呼ぶ技術と「音声検索」についてMatt Cutts氏は深く掘り下げました。)

Deep Learning(ディープ・ラーニング)

「ディープ・ラーニング」と呼ぶ大きな変更を始めた。

「ニューロネットワーク」で モノゴトの繋がり、関係性がわかる。
China(中国)とBeijing(北京)が関係があることがわかると、「What is the Capital of…」を他にも適用し、ロシアの首都がモスクワ、トルコの首都がアンカラ、日本の首都が東京だともわかる。

国と首都の関係だけではなく、あらゆるものごとで機能する。

Google(のプログラムに)学習の仕方、読み方を教えている。

銅の元素記号がCuで金がAuとかもディープ・ラーニングでわかる。
アインシュタインが科学者でモーツァルトがバイオリニストだとわかる。

時間とともにディープ・ラーニングはさらに向上している。

音声検索の改良

音声検索も改良を続けている。

“who is the prime minister of Turkey?”(トルコの首都は何?)と尋ねると、ナレッジグラフのおかげでTurkeyは固有名詞で、世界のなかのエンティティであり、大文字で書かれるべきだとわかる。
そして首相がRecep Tayyip Erdoğan(レジェップ・タイイップ・エルドアン)だと知ることができる。

検索をさらに続けられる。
「How old is he?」(彼は何歳ですか?)と尋ねると、“He”がトルコの首相を表していると直前のクエリからわかり、59歳だと返してくれる。

検索者が何を本当に聞いているのかをGoogleはわかるようになってきている。

「Will it rain tomorrow?」(明日は雨が降りますか?)とChromeで音声検索すると場所に応じた結果を返す(会場ではラスベガスの明日の天気)。

「What about Mountain View?」(マウンテンビューはどう?)と続けると、マウンテンビューの天気を返す。
ユーザーが引き続き天気を知りたがっているとGoogleはわかっているから。

「How about this weekend?」(今週末はどう?)とさらに続けると、今度はマウンテンビューの週末の天気を教えてくれる。

ユーザーが本当に話していることの構造をGoogleは理解し始めている。

核になるクオリティの変更

プレゼンするMatt Cutts

ハミングバード

ハミングバードと呼ぶ大きな変更を実施した。

自然言語、話し言葉で検索したときに(検索結果を導き出すのに)不要なものを除外できる。
たとえば「What is the capital of Texas, my dear?」(ねえあなた、テキサスの州都はどこでしたっけ)と尋ねたとき「my dear」は検索にはさして重要でないとわかる。

Googleはこれまでは、クエリに含まれるキーワードに一致させようとしていた。
しかし、どのワードがより有用で重要かを今は理解し始めている。

ハミングバードは、音声であろうがタイプしようが、より長いクエリにおいてどのワードがより重要で、より高いインテリジェント・スコアリングを持っているかを判断する。

ほとんど情報が出ていないのにもかかわらず、ハミングバードに関するいろいろなSEOの記事が出ている。
しかし実際のところSEOにはほとんど影響しない。
90%のクエリに影響するが程度はとても小さい。
ほぼ誰も気付かれることなく導入できた。
それくらい小さな変化だから気にしなくていい。

パンダやペンギンのように世間を大騒がせすることはない。
検索結果をほんの少し良くしただけ。
特に、ロングテールや特定のクエリにおいて。
ロングテールばかりを狙っているようなスパマーは影響を受けるかもしれないが、普通は気にしなくていい。

【参考】

パンダの緩和

質の低いサイトと質の高いサイトをパンダは振り分けていたが、どちらにすべきか迷うグレーゾーンに位置するサイトがある。
新しいシグナルを開発し、グレーゾーンに位置するサイトを質が高い方に入れるようにした。

【参考】

オーソリティの検出と順位アップ

オーソリティサイトを検出し順位を上げるようにした。
たとえば、医療に関するジャンルのオーソリティサイトだとしたら、それを検出し医療系のクエリで若干より上位に表示するようにした。

オーソリティのあるサイトを手動で選ぶわけではない(アルゴリズムが自動で選ぶ)。
ジャンルは数千種類ある。

何かする必要はなく、もしそのジャンルのオーソリティであるなら書き続け、質を高め続け、より掘り下げ続けていけばいい。

【参考】

スマートフォンのランキング

スマートフォンで再生できないFlashを使っていたり、モバイルでページの表示速度が遅かったり、モバイルユーザーをすべてトップページにリダイレクトするようなサイトの順位を下げることがある。

【参考】

ウェブスパムの変更

ペンギン2.0と2.1を実施した。

次世代のペンギンだったが、みんなが大騒ぎして混乱を起こさないように軟着陸させた。
スパマーたちは、ぜんぜん影響を受けなかったと活気づいていたので、ノブをもう少し回して(もう少し厳しくして)ペンギン2.1を実施した。
スパムに対する対策は今後も続ける。

【参考】

スパムがとても多いクエリに対するアルゴリズム

ここ3、4ヶ月の間、スパムが非常に多いジャンルの対策に取り組んできた。
たとえば、英国における「payday loan」(即日融資)。

2つほどのアルゴリズムを開発した。
payday loanのほかにもポルノ系などスパムが多いクエリに対抗した。
普通のクエリには影響しない。
今後も改良を続ける。

【参考】

アドバトリアル/純広告

対象がはっきりしていて広告だとわかる限りは、アドバトリアルも純広告もまったく悪いことではない。
広告だとまったくわからないようにして、PageRankを流す有料コンテンツを掲載していた数千のニュースサイトに米国や英国で対処した。
有料でPageRank流すことはアドバトリアルや広告に限らず、すべてに対してずっと前から禁止している。

【参考】

スパムネットワークへの対策の継続

スパムネットワークに対するアクションを続ける。
スパムネットワークのリストを持っていて、次はどれを潰すか投票してもらっている。

ブラックハットフォーラムに暴力的な投稿があると、「ウェブスパムチームは良くやった」と喜ぶ。


スパム判定されたか順位が大幅に下落したことについてのブラックハットフォーラムのスレッド。「マット・カッツの顔面をパンチしたいやつは誰だ?」と書かれている。

ブラックハットフォーラムのスパマーが嘆いているのは、たいていの場合、我々にとってはいい証拠だ。

コミュニケーション

ウェブマスターとのコミュニケーションに対しても取り組んできた。

Matt Cuttsのプレゼン

マルウェア/ハッキングのための新しい動画

Maile Ohye(マイリー・オイェ)がマルウェアやハッキングの被害を受けたときの対処法について、ものすごくたくさんの動画を作ってくれた。

【参考】

ガイドラインの具体例

有料リンクやスパムリンクなど、品質ガイドラインでの具体的な例を増やした。

100以上のイベント、ハングアウト オンエア、ウェブマスター向けオフィスアワー

Matt Cutts(自分)だけではなく、他にも十数人のGoogle社員がコミュニケーションを取っている。

John Mueller(ジョン・ミューラー)やPierre Far(ピエール・ファー)、Maile Ohye(マイリー・オイェ)、Zineb(ジネブ)、Gary(ゲイリー)、Wyzs(ウィズ)などがいろいろな場所に登場している。

John Muellerは、(ハングアウト オンエアの)ウェブマスター向けのWebmaster Office Hoursでさまざまなトピックについて話している。

もしGoogleの人とだれか話したいと思ったら、簡単にできるようにした。

「検索の仕組み」紹介サイト

「How Search Works」(検索の仕組み)というサイトを公開した。
何百ドルも払って検索のカンファレンスに参加するくらいならその前に、このサイトを(無料で)読んだほうがいい。

純粋なスパムや自動生成コンテンツなど手動対策するスパムのカテゴリを挙げている。

今その瞬間に対策されているサイトを見ることもできる。

1週間に受け取った再審査リクエストの数を見ることもできる。

【参考】

検索の未来

ここまでは去年の話でここからはGoogleがどこ向かっているかを話す。

マシンラーニング(機械学習)

Googleはどんどん賢くなるように取り組んでいる。

Googleの使命は、世界中の情報を整理しどこからでも入手できるようにすること。
その使命には「検索エンジン」という言葉はどこにもない。
あらゆる情報を有益な形で提供できるように取り組んでいる。

モバイル

モバイルは巨大(な市場)になっている。

これはモバイルからのYouTubeへのアクセスの比率。

  • 2011年: 6%
  • 2012年: 25%
  • 2013年: 40%

モバイルは誰が想像するよりもずっと速く伸びている。

モバイルのトラフィックがデスクトップのトラフィックをすでに超えている国もある(インドはすでに超えている)。
他の国でも超えるだろう(米国も2015年に超えるという予測あり)。

モバイルについて何も戦略を立てておらず、モバイルで使いにくいサイトならモバイルについて今すぐ考えなければならない。

ソーシャル/アイデンティティ/著者情報

Facebookはすばらしい役割を果たしていて、ソーシャルの価値を高め、ウェブで人々が誰であるかを認識できるようにしている。

誰が誰であるかがわかれば、検索からスパマーを排除するのに役立つ。
したがって著者情報があれば大きな違いをもたらすだろう。

こういうと、ツイートやいいね!、+1がランキングを上げる要因になると言ってほしいと思うかもしれない。

短い目で見れば答は「No」だ。
FacebookやTwitterのすべてのページをクロールできるわけではないし、+1がランキングを押し上げることはない。

しかし、長い目で見れば違う。

ソーシャルシグナルはオーソリティを反映している。
人々が耳を傾けているオーソリティを反映している。
人々が耳を傾ける価値があるということは、検索エンジンも耳を傾ける価値があるということになるだろう。

ソーシャルのシグナルがランキングを上げると思ってはいけない。
ソーシャルでオーソリティを築き、エキスパートになろうとするべきだ。
そして検索エンジンに自分が上位表示にふさわしいと示すべきだ。

ウェブスパムのトレンド

この半年間、ウェブスパムチームがあまりたいしたことをやっていないように見えたかもしれない。
何をやっているかを教えよう。

ハッキング

ハッキングは我々がもっとも対処しなければならない問題の1つ。

次世代のハッキング検出の開発に取り組んでいる。
たとえば、Viagra(バイアグラ)の検索結果にいまだにスパムが多いことは素直に認める。
まだ時間がかかるだろうが、次世代のハッキング検出で対処できるようにする。

児童ポルノ

世界的に問題になっている児童ポルノについて対応する。

年内のツールバーPageRankの更新予定なし

次のPageRank更新はいつになるかとよく聞かれる。

内部ではPageRankは常に更新している。
新しいPageRankを毎日作っている。

内部のPageRankをツールバーのPageRankにエクスポートする仕組みがある。
通常は3、4ヶ月に1回エクスポートするのだが、しばらく前にそれを処理するパイプラインが壊れた。

人々がPageRankにこだわりすぎていると我々は感じていて、「まあいいや、そのまま放っておこう」という話になった。
修理のための人材を当てがっていない。

ツールバーのPageRankにこだわってほしくないから、おそらく年内の更新はない。
2014年に何か起こるかどうかもわからない。

【参考】

アドバイス

来年やってみたいこと、自分だったらやることをアドバイスする。

Matt Cutts @PubCon

モバイルに備える

別ドメイン運用だろうが、レスポンシブ・ウェブデザインだろうがモバイル対応の準備をすべき。
サイトでいまだにFlashを使っているとしたら、ほとんどのスマートフォンでは再生できない。
そういった問題を解決しなければならない。

requestAutocomplete

requestAutocompleteを利用するといい。

Chromeのベータ版に実装されているかもしれない。

人々はフォームの入力を面倒に感じている。
フォーム入力は何であれ、コンバージョンに影響する。

requestAutocompleteの属性をフォームのHTMLにマークアップしておけば、1クリックでフォーム入力が完了する。

数カ月後に対応したChromeが出るはず。

【参考】

Above the foldが広告過多のページへの対応

ページ上部の広告が多過ぎるページに対処するアルゴリズムの新しいバージョンを開発している。
英語よりもロシア語やアラビア語など他の言語に影響すると思う。

Above the foldに広告が多いとしたら、ユーザーエクスペリエンスがいいかどうかチェックした方がいい。

【参考】

著者情報を厳しく

ハイクオリティな著者を見せたいと考えていて、条件を厳しくする。
15%くらい減るかもしれない。

単に著者情報用にマークアップしただけではダメで、クオリティも見るようにする。

リッチスニペットがサイトのクオリティに依存する

同じようにリッチスニペットについても、サイトのクオリティを見るようにする。

リッチスニペットは最初は承認制で後に誰でも使えるようにしたが、スパムが増えてきた。
中間をとるようにして、質が高く信頼できるサイトならリッチスニペットを表示するようにする。

スパムっぽく見えたり質が低いサイトだとしたら、リッチスニペットが出にくくなるだろう。

GoogleがJavaScriptに対してより賢くなる

JavaScriptの処理についても改良を続けている。
Ajaxやそういったことではなく、JavaScriptの取得や実行、レンダリング、インデックスなどJavaScriptによって作られるもの全般だ。

JavaScriptの一般的なフレームワークやライブラリを使っていれば、適切にインデックスしてもらいやすくなる。

少数のサイトでテストして良い結果を得ている。
取り組みを継続するつもり。

すぐにやるべきこと

  • ウェブマスターツールの登録

以下を購読

キーノートスピーチでのMatt Cutts氏によるプレゼンテーションは以上です。

去年のキーノートスピーチでのリンクの否認ツールの発表のように大ニュースはありませんでした。
それでも検索の話をMatt Cutts氏から直接聞くのはいつのときでもいい情報になるものです。

番外編

上の写真はキーノートスピーチ終了後にマットに群がる参加者です(僕もその1人w)。

明日はプレゼン終了後とキーノートスピーチ終了後に参加者からの質問に対するMatt Cutts氏の回答をまとめます。

お楽しみに。