ナレッジグラフからナレッジヴォールトへ 〜 Googleが描く未来の検索がまた一歩近づく

[対象: 上級]

Googleは、“Knowledge Vault”(ナレッジ・ヴォールト)と呼ぶ次世代の知識ベース (Knowledge Base) を開発中だとのことです(最後に追記あり)。

ドキュメントが公開されています。
[Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion]

僕のようにセマンティックに興味を持っているひとにはとても気になる内容なので、概要を説明します。

知識ベースとは

まず簡単に“知識ベース (Knowledge Base)”とは何か? を説明します。

ここでいう知識ベースとは、モノゴト(セマンティック用語でいうと、“エンティティ”)に関する事実 (Facts) を集めたデータベースです。

たとえば、次が事実の例です。

  • バラク・オバマは第44代アメリカ合衆国
  • バラク・オバマは1961年8月4日生まれ
  • 日本の首都は東京
  • Google Nexus 7 32GBは34,765円

“バラク・オバマ”や“日本”、“東京”、“Google Nexus 7”がエンティティですね。

こうした事実を集めた知識ベースを検索プロダクトとしてGoogleが公開したのが、ナレッジグラフです。
「バラク・オバマ」と検索すると、オバマ大統領に関するさまざまな事実(のほんの一部)がナレッジグラフのパネルに表示されます。

バラク・オバマのナレッジグラフ

ナレッジパネルの下部にはオバマ大統領に関係深い人々が表示されています。
こうしたエンティティ同士の関係性 (Relatinship) もナレッジベースに格納される情報です。

ナレッジグラフは人手によるナレッジベース

世の中にはさまざまな知識ベースが存在します。

最も有名な知識ベースは、言わずと知れたWikipediaです。
Wikipediaにはさまざまな知識が掲載されていますね。

Googleは自身でも知識ベースを所有しています。
Freebaseです(開発したMetawebというスタートアップ企業を2010年に買収)。

WikipediaにしてもFreebaseにしても、人間の手によって知識ベースが構築されます。

ナレッジグラフ、はWikipediaやFreebase、CIA World Factbookなど人の手によって作られたいくつもの既存の知識ベースから作成されます。
つまり、ナレッジグラフは人の手による知識ベースが基になっているわけです。

ナレッジ・ヴォールトは事実を自動収集

しかし、Googleが新たに開発しているナレッジ・ヴォールトは、事実を自動で収集します。
そして、既存のナレッジベースと照らし合わせたり人間のユーザーに“クラウド的に”チェックさせたりその他の手段を使ったりして、収集した事実が本当に正しいかどうかをチェックします。

照らし合わせこそすれ、ナレッジ・ヴォールトは完全にゼロから事実を収集し始めました。

現在ナレッジ・ヴォールトが集めた事実は、「16億」。
うち、0.7以上の確実性があるものが「3億2,400万」、0.9以上の確実性があるものが「2億7,100万」とのことです。
[鈴木メモ] 1.0の確実性が、間違いなく確かな事実

将来は世界最大の知識ベースに

先に挙げた数字を見ると、ものすごく多いように思えます。
ところが実際にはそうではありません。

Freebaseが現在格納している事実は19億です。
Freebaseは人の手が介在していることもあり、19億のうちのほとんどは正しいと考えていいでしょう(事実のデータは削除もされる。2013年6月9日時点で削除された事実は6,300万)。

ナレッジグラフは、FreebaseやWikipediaなどいくつもの知識ベースから事実を入手しています。

「19億 vs. 2億7,100万」、こう考えると、ナレッジ・ヴォールトはたいしたことありません。

しかしそれは今の時点での話です。
人とコンピュータがとちらが多くの事実を集められるかといったら、答えは明白です。

0.9以上の確実性がある「2億7,100万」の事実のうち、1/3つまり約9,000万はFreebaseにはない事実だとのことです(反対の見方をすれば、「2/3はダブってるじゃん」とも言えますが)。

ナレッジ・ヴォールトは歴史上最大の知識ベースを目指しています。

ナレッジ・ヴォールトで実現する検索の未来

ナレッジ・ヴォールトでGoogleが実現させたいのはきっと次のようなことでしょう。

  • ナレッジグラフの改善 ーー ナレッジ・ヴォールトにより、源となる知識ベースが発展することでナレッジグラフに出てくる情報がさらに改善されるでしょう。
  • パーソナルアシスタントの登場 ーー Google Nowですでにある程度は実現していますが、検索しなくても、必要な情報を必要なときに届けてくれる機能です。ナレッジ・ヴォールトにより、もっと頼りになるパーソナルアシスタントができあがるでしょう。
  • 会話型検索の発展 ーー 米Googleの検索最高責任者、Amit Singhal氏が夢見る、スタートレックに出てくるようなコンピュータとの完全な会話が実現するかもしれません。
  • 検索品質のさらなる向上 ーー 最後ですが、僕たちにはこれがいちばん重要かもしれません。エンティティとそれに関する事実、ほかのエンティティとの関係性がわかることで検索の仕組みが根本的に変わる可能性も秘めています。“文字”ではなく、“そのモノゴトが何なのか”をコンピュータが本当に理解した検索結果を返せるようになるに違いありません。

【UPDATE】
Search Engine Landによると、「Knowledge VaultはGoogleが行っている知識ベースの研究の1つであり、実用化に向けて開発を進めているわけではない」とGoogleがコメントしたとのことです。