「ホットドッグ = 熱い犬」ではない ~ Googleアルゴリズムの言語識別能力はここまで伸びている

検索エンジンはウェブページに書かれている言葉を理解したうえで、ユーザーの検索に対してもっとも適切と思われる結果を返します。

「言葉を理解して」と簡単に言いますが、僕たち人間にとっては当たり前のことでも機械である検索エンジンにとっては決して優しいことではありません。

コンテキスト、つまり前後の文脈で意味が変わってくる場合もあるし、文字どおりの意味と違って使われる慣用句も存在します。

つい最近Wired Magazine(ワイアード・マガジン)がウェブで公開した”Exclusive: How Google’s Algorithm Rules the Web“という記事には、言葉の表面上ではなく裏側の意味まで汲み取るようにGoogleのアルゴリズムが進化してきた過程が語られています。

SEOに直結するものではないのですが、何かの参考になることを期待して解説します。

“pictures of dogs”(犬の写真)と”pictures of puppies”(子犬の写真)というのは非常に近い意味を持ちます。
場面によっては完全に置き換え可能でしょう。

一方、”boil water”(水を沸かす)と”hot water”(お湯)になるので、”boilと”hot”も極めて類似した意味を持ちます。
“boilng water”(沸騰した水)、イコール、”hot water”(お湯)です。

ところで”hot dog”(ホットドッグ)というものをご存知ですよね。
ソーセージを細長いバンで挟んだあれです。

ここで「dog = puppy」・「boiling = hot」 だからといって”hot dog”を”boiling puppy”と言い換えられるかと言ったら、そんなことは決してありません。
文字どおり「湯で上がっている子犬」になってしまいます。(笑)

笑い話のようですが、2002年後半まではGoogleは区別が出きていなかったとのことです。

何十億というドキュメントやウェブページをクロール・インデックスし、”hot dog”が”bread”(パン)や”mustard”(マスタード)、”baseball games”(野球の試合)といった言葉と近い位置で同時に使われる傾向にあることを認識し、「熱い犬」ではなく「ホットドッグ」という食べ物だと理解してくようにアルゴリズムを発展させてきました。

同じように”Gandhi bio”(ガンジーの伝記)と”bio warfare”(生物兵器)も同じ”bio”を使っていますが、意味がぜんぜん違います。
前者は”biography”、後者は”biological”の略です。

Googleはつい最近もSynonym(同意語)の認識能力を向上させたばかりですね。

また同じ単語でも他の単語との組み合わせによって意味が変わってくるものもあります。

“new york”は地名としての「ニューヨーク」のことであって「新しいヨーク」ではないですよね。
通常は2ワードで1セットで使われます。

“new york times”は新聞としての「ニューヨーク・タイムズ」です。
これは3ワードで1セットですね。
“new”と”york”と”times”に分割することはできません。

じゃあ、”new york times square”と検索されたらどうなるかとうと「ニューヨーク(にある)タイムズスクエア」という意味なので、4ワードで1セットということではありません。
“new york”と”times square”の2ワードで1セットの塊が2つあるのです。

こういったことをコンピュータに判断させるのは簡単なことではないだろうと、僕のような素人の目から見ても分かる気がします。
そう考えると、人間の脳って賢いですよね。

同時に使われるだろう単語・フレーズや言い換え言葉を含めて記事を書くことで、コンテンツのテーマ・トピックをより鮮明に検索エンジンに認識させることができそうです。

SEOには今後ますますライティング能力が問われていくはずです。
ボキャブラリーの豊富さ、分かりやすい文章構成など「書く力・読ませる力」を伸ばさなければなりません。
キーワードを連発したり、キーワード出現率がどうのこうのというSEOから早く脱却しましょう。

なおワイアードの記事はこの他にもSEO好き(おタク?)にはワクワクして読める情報がたくさん書かれています。
とても長い記事なのですが、全文を読んでみてください。

ってか、僕もまだ全部読んでませんが。w

【Other Resources】
Wired On Google’s Algorithm
How Google’s Algorithm Rules the Web
How Google’s Algorithm Works