Google、自然言語処理技術のBERTを検索システムに導入。英語検索の10%に影響あり

[レベル: 上級]

Google は「BERT」と呼ぶ自然言語処理技術を検索システムに採用したことを発表しました。
BERT の採用により検索クエリをより正確に理解することができます。

米Google (google.com) の英語の検索ですでに導入されました。
今後は、ほかの国・言語にも展開していく予定です。

強調スニペットにも BERT は使われます。
強調スニペットに関しては、導入されている 20 数か国で BERT が機能しています。

クエリ理解に BERT を利用

BERT とは “Bidirectional Encoder Representations from Transformers” の頭文字を取ったものです。
自然言語処理 (NLP: Natural Language Processing)の技術です。
約 1 年前に Google がオープンソースとして公開しました。

自然言語とは、ものすごく簡単に言うと普段僕たちが自然に使っている言葉です。
コンピュータは人間のようには自然言語を正しく理解できません。
そのため、検索するとき、多くの人は人と話すようにではなく検索エンジン用にクエリを入力します。

たとえば、パスポートの有効期限が切れて更新したいときに手続方法を調べる際に、「パスポート 期限切れ 更新」のように片言の日本語みたいに検索するかもしれません(※ちなみにパスポートは更新できません。新規に取得します)。
普段使っている言葉で検索しても検索エンジンには正しく理解してもらえず、求めていた結果が出てきづらいことを僕たちは経験的に知っているからです。

もっとも、検索エンジンの進歩や若い子たちの利用が増えてきたことで自然言語による検索は増加してきているでしょう。

Google は自然言語を処理するために BERT という仕組みを開発しました。
BERT が具体的にどんな処理をしているかはここでは省きます(普通の人にとっては難解で僕も完全に理解しているわけではありません。興味がある方は Google による発表記事をまずご覧ください)。

とにもかくにも、BERT は、革新的な手法で自然言語処理の能力を飛躍的に向上させました。
この BERT が検索システムに組み込まれたのです。

BERT による自然言語処理が生み出す検索結果

BERT 採用以前では的確な結果を出せなかったけれど、BERT 採用後には的確な結果を返すことができるようになったクエリの例を公式アナウンスはいくつか挙げています。
そのうちの 1 つを紹介します。

2019 brazil traveler to usa need a visa

これは、「2019 年に米国へ行くブラジルの旅行者はビザが必要かどうか」を問うクエリです。

to usa”(米国) の “to” が非常に重要なのですが、従来のクエリ解釈では、“to” を無視してしまい、米国市民がブラジルに行くときにビザが必要かどうかの情報を提供するページを返してしまっていたのだそうです。

旅行の主体と向きが逆になってしまっています。

BERT でクエリを解釈すると適切な結果が返されるようになったとのことです。

2019 brazil traveler to usa need a visa. の検索結果比較

まずは英語から採用、強調スニペットは 20 数言語で

BERT が採用された検索は、米 Google の英語の検索で先週導入されました。
おそらく、今頃は展開が完了しているはずです。

英語検索での情報も取得しながら、他の国、他の言語でも BERT を採用していく予定です。

【UPDATE】
米 Google の英語以外の国・言語への BERT の展開予定は決まっていません。

BERT は強調スニペットの生成にも関与しています。
強調スニペットは、現在 20 数か国で提供されており、すべての国で BERT が使われています。
特に、韓国語とヒンディー語、ポルトガル語で目覚ましい改善が見られたとのことです。

強調スニペットに関しては、日本語にも BERT が影響しているはずです(どの程度の改善が見られたのかは不明)。

10 %のクエリに影響

Google によれば、米国の英語検索の 10 件のうち 1 件で BERT 採用による検索結果の改善が見られたとのことです。
単純計算で、検索結果の 10 %に影響したことになるので、影響度は比較的大き目と言えます。

一方で、BERT採用を発表した Pandu Nayak(パンドゥ・ナヤク)氏は、報道陣向けプレスリリースで次のようにコメントしたそうです。

Google を使う人たちは検索結果が BERT の力によって返されたものかどうかはわからないだろう。BERT なしの検索結果に戻すことはできない。

概して言えば、より複雑なクエリに対する結果を BERT は改善する

どんな変更でもそうだが、勝者もいれば敗者もいるだろう

People who use Google won’t know whether their results are powered by BERT, and can’t revert to non-BERT results.

in general, BERT will improve results for more complicated queries

In aggregate, we know that any change will have some gains and some losses.

また、BERT によってどんなサイトが特に影響を受けるか? という記者からの質問に対して検索部門の副社長 Ben Gomes(ベン・ゴメス)氏は次のようにコメントしたとのことです。

何か特定のパターンは見ていない。だが、ニッチな質問であればニッチなパブリッシャーが上位に出てくるかもしれない。

We did not see any particular pattern there. But if you have niche questions, then a niche publisher might be surfaced for that.

検索ボリュームが多いヘッドタームよりは、検索ボリュームがごく僅かなロングテールキーワードに対してより影響するのかもしれません。
一般的に、ロングテールキーワードは語数が多い傾向にあり複雑です。
対して、ヘッドタームは語数が少なくシンプルなので自然言語処理能力をさほど必要としなさそうです。

BERT 対応

さて、気になるのは BERT が検索システムに導入されたことでどんな対応が必要になるかでしょう。

一言で言えば特別な対応は不要です。
しいて挙げるとしたら、ユーザーのためにコンテンツを作ることです。

自然言語によるクエリ理解が向上したのですから、そのクエリに対する的確な情報を提供できていれば、Google があなたのページを上位表示してくれます。

「SEO のためのライティング」なんていうものが存在することがそもそも不自然だったわけです。
「BERT 対応のコンテンツ制作」みたいなサービスが今後生まれてくるかもしれません。
もしそういったサービスが出てきたら、生暖かく見守ってあげましょう。😉

もう 1 つ挙げるとしたら、わかりやすい文章を書いてください。
この記事は結局何を言いたいんだろう? とユーザーを困惑させてはいけません。
人間のユーザーが理解できないコンテンツは BERT も理解できません。

Google 検索が進化すればするほど、ユーザーのためのコンテンツ作りがより重みを増してきます。