Googleが検索システムを今後数カ月で刷新 〜 鍵を握るEntity(エンティティ)とは?

[対象: 中〜上級]

今後数カ月のなかでGoogleの検索システムを大きく改良する予定であると、GoogleのサーチクオリティチームのトップであるAmit Singhal(アミット・シンガル)氏がインタビューの中で発言しました。

まず補足です。

今回のニュースは米Wall Street Journalのオンライン版が報じて、その邦訳をウォール・ストリート・ジャーナルの日本版で読むこと(全訳してない?)ができます。

ただし、インタビューはWSJのもとで行われたわけではありません。
Mashableが今年の2月に公開したインタビュー記事を再利用しているようです。

似たようなことを言っているなとは感じたものの繰り返し言っているのだろうと深く考えなかったのですが、そういうことでした。

とはいえ、少なくとも日本人の大多数にとっては初めて耳にする、衝撃的(?)なニュースであることに変わりはありません。

重要な点をいくつか邦訳記事から引用します。

今後数カ月間で、グーグルの検索エンジンは青色のウェブリンク一覧を羅列するだけではなくなる。検索結果表示ページの最上部に、さらに多くの事実や質問への直接的な回答を表示するようになる。

グーグルはむしろ、今回の変更により、「セマンティック検索」(単語の実際の意味を理解するプロセス)と呼ばれる技術を取り入れることで一層関連性の高い検索結果を表示することを目指している。

セマンティック検索へのシフトは検索クエリ全体の10-20%(月間ベースでは数百億件)の検索結果に直接的な影響が出る可能性がある

検索結果の表示形式に大きな変更が加えられます。
検索結果の決定には“セマンティック”と呼ばれる理論がより深く採用されます。
予想される検索結果変化は、全クエリに対して10〜20%です(ちなみに初代パンダ・アップデートは11.8%なのでパンダの倍近くになる可能性がある)。

“セマンティック”(英語では“Semantic”)という言葉は聞いたことがあるかと思いますが、いまいちピンとこない用語なのではないでしょうか?

セマンティックは、検索エンジンの世界では、簡単に言うと、言葉(単語や句)がどんな意味を持つかを理解することです。

たとえばリッチスニペットにおいては、仕様に従った構造化マークアップを記述して評価やレビュー、値段などの情報を検索エンジンに対して“意味付け”しておきます。
すると、この数字はレビューの数を表しているとか金額を表しているのように検索エンジンにその数字が持つ意味を教えることができるのです。
「“5,000”は単なる数字ではなくて“5,000円”という“金額”を意味しているんだよ」、ということですね。

Authorship(著者情報)も、幅広くとらえればコンテンツとその著者を結びつけるセマンティックと言えます。

セマンティックは何も初めて採用が始まったものではなくて、Googleをはじめ他の検索エンジンでもすでに用いられています。
現在はBingが買収したPowersetが一例です。

今回のGoogleの検索システムの刷新はさらに大きくセマンティック技術に依存しようということになります(検索エンジンに長らく携わってきた人たちからすると「何を今さら」という印象のようです)。

Googleが推し進めるセマンティックを理解するときにとても重要な概念があります。

それは“Entity”(エンティティ)です。

WSJの邦訳版では「要素」と訳されてしまっていますが、これだと“Entity”が持つ本来の意味がまったく伝わっていないように思えます。

セマンティックを語る上で“Entity”は鍵となります。

一般のサイト管理者が普段サイトを運営していくなかでEntityが何かを知っておく必要は特にありません。
しかし僕のようにSEOを研究している状況では今後たびたび耳にすることがあるだろうし、何を意味するかを知っておくことは検索エンジンの理解にも役立つはずです。

ということで、ここからは“Entity”について説明します(ここまでは前置きでしたw)。

Entityとは?

Entity(エンティティ)”は、辞書で調べると「実態」とか「存在(物)」という日本語になります。
Googleの特許では、“Named Entity(ネームド・エンティティ)”と表現されることもあります。

Entityとは、人や物、事、場所、など“存在”を表す概念です。
そしてEntityは、さまざまな“属性”によって構成されます。

まったく意味不明ですね?(笑)

具体例を挙げてみましょう。

「東京スカイツリー」はEntitiyの1つです。

東京スカイツリーには、次のような属性(Meta Data; メタデータ)が結びつくと考えられます。

  • 電波塔
  • 2012年2月29日竣工
  • 高さ634m
  • 世界一高い
  • 東京・墨田区
  • 東京の新名所
  • おしなりくん
  • ソラカラちゃん

僕もEntityです。

  • 鈴木謙一
  • Kenichi Suzuki
  • 男性
  • 38歳
  • 新潟県出身
  • そこそこ英語が得意
  • 身長180cm ※ちょっと足りないw
  • スズケン ※学生時代のあだ名
  • 頭脳明晰w
  • 足長いw

Googleには次のような属性でも結び付けられているはずです。

  • suzukik
  • SEO
  • 海外SEO情報ブログ
  • セルフデザイン・ホールディングス

Entityは実在するモノだけとは限りません
物理的な実態がない映画、「アバター」もEntityです。

  • Avatar
  • アメリカ映画
  • ジェームズ・キャメロン監督
  • 20世紀フォックス
  • Sam Worthington
  • SF超大作
  • 2009年公開
  • 3D
  • 全世界興行収入18億5500万ドル以上

なんとなくでもいいので、初めよりはEntityがどんなものかつかめてきたでしょうか?

このようにどのような属性、平たく言えばどのような情報・意味によって、物や事、人などが構成されているかを形作るのがEntityになります。

Entityをデータベース化すると、「総理大臣」で検索したときに歴代の総理大臣の名前・政党・就任期間・何代目・出身地などが検索結果に出せるようになります。

「興行収入が10億ドル以上の2000年以降に公開されたアメリカのアクション映画の主演はだれ?」なんていうクエリにも回答できるかもしれません。

こういったことは、今でもある程度できています。

以前にGoogle Labsで試験運用されていたGoogle Squaredは「総理大臣」の例を処理できます。

自然言語でのクエリにも回答できるものがあるはずです。

Googleは大量のEntityをデータベース化し高度なセマンティック技術を開発したMetaweb(メタウェブ)というスタートアップを2010年に買収しました。

セマンティックによる検索を加速させるためです。

Metawebチームのもとで、2億以上のEntityを現在インデックスしているとのことです。

こうしてありとあらゆるEntityをデータベース化することで、Googleは、単にキーワードが書かれているからとかリンクが張られているからといった従来型の指標に依存せず言葉が持つ意味をあたかも人間のように理解して検索結果を作り出そうとしているのです。

そしてEntitiyをベースにしたセマンティック化への取り組みが今後数カ月のうちに大々的に展開し、Google検索が大きく様変わりするというのです。

今日の記事も難しめのテーマだったかもしれませんね。

「関連性があって質の高い情報を提供しユーザーエクスペリエンスを高める」という僕たちサイト管理者がやることはこれからも変わりません。

それでもGoogleがどんな方向に向かっているかを知っておくことは決して無駄にはならないはずです。

さて、あなたのサイトやあなた自身はGoogleにどんなEntityとして認識されているでしょうか?
想像してみてください。

【UPDATE】
このニュースに対するAmit Singhal氏のGoogle+での投稿を見ると、大きな変化が今すぐに訪れるということはなさそうです。
WSJの誤解または誇張が入っているように感じられます。