Googleアシスタントの音声回答の品質評価ガイドラインをGoogleが公開

[レベル: 上級]

検索品質を評価するために、Google は専用のガイドラインをドキュメント化しています(現在は本物の完全版を公開)。

同じように、音声検索の品質を評価するためのガイドラインも作成したとのことです。
このガイドラインは、Google アシスタントの音声回答の品質を評価するために用いられます。

驚いたことに、検索品質評価ガイドラインと同じように、原本を公開しました。

ガイドラインでは、主に2つの軸から Google アシスタントの音声回答を評価するやり方を説明しています。
この記事で、主要ポイントを解説します。

Needs Met Rating

Google アシスタントによる音声回答の1つの評価軸は “Needs Met” です。

これはクエリに対する音声回答がユーザーが必要としている情報、つまりニーズをどのくらい完全に満たしているかどうかの評価になります。
ウェブ検索のガイドラインにも Needs Met がありましたね。

次のような具体例がガイドラインには提示されています。

  • クエリ: how tall was charles darwin?(チャールズ・ダーウィンの身長は?)
  • 音声回答: Charles Darwin stood about 5 feet, 11 1/2 inches tall.(チャールズ・ダーウィンは立つと、およそ5フィート11.5インチの身長でした)
  • 評価: Fully Meets(完全に満たしている)

この音声回答はクエリに対して完全な答えを適切に返しています。
したがって、Fully Meets の評価を与えられます。

  • クエリ: william blake(ウィリアム・ブレイク)
  • 音声回答: According to example.com, William Blake was an English poet, painter, and printmaker.(example.com によると、ウィリアム・ブレイクはイギリスの詩人、画家、銅版画職人です)
  • 評価: Highly Meet(かなり満たしている)

この音声回答はクエリが求めている情報を非常によく提供していると言えます。
しかし他にももっと多くの情報を欲しがっているユーザーがなかにはいるかもしれません。
そうした情報は参照先のサイトで入手できます。ユーザーはそのページのリンクを受け取ります。

  • クエリ: what will the weather be like this weekend?(今週末の天気はどんな感じ?)
  • 音声回答: It will be 69 degrees and cloudy.(69 度で曇りでしょう)※温度は華氏
  • 評価: Moderately Meets to Slightly Meets(ある程度満たしている、または若干満たしている)

役立つ情報を含んではいますが、週末全体の天気予報をユーザーは知りたいはずです。
ほとんどのユーザーはさらに情報を欲しがるでしょう。
したがって評価は、ある程度あるいは若干満たしているとなります。

  • クエリ: who is the president of the united states?(アメリカ合衆国の大統領は誰?)
  • 音声回答: According to example.com, the president of the united states is the elected head of state of the united states. (example.com によれば、アメリカ合衆国の大統領はアメリカ合衆国大統領選挙によって選出された国家元首です)
  • 評価: Slightly Meets(少しだけ満たしている)

このクエリで検索するユーザーが知りたいのは、今の大統領が誰なのかのはずです。
大統領の定義でありません。
ほとんどのユーザーには役に立ちません。
まったく関係していなくはないのですが適切な回答とはいえないので、ほんの少しだけニーズを満たしている評価になります。

  • クエリ: will it rain this evening?(今日の夜は雨が降りますか?)
  • 音声回答: I’m not sure how to help with that.(お役に立てそうにありません)
  • 評価: Fails to Meet(失敗)

これは答えることが全くできていません。
ニーズを満たすことに失敗しています。

Speech Quality Rating

もう1つの評価軸は、音声回答の品質です。

次の3項目が評価対象の要因になります。

  • Length(長さ)―― 音声回答の長さです。短すぎてもいけないし長すぎてもいけません。
  • Formulation(文法的な正しさ)―― 文法的な正しさや意味が通じるかどうかです。ネイティブスピーカーが話すようであるべきだし、前後関係を省略した回答は意味が不明瞭なことがあります。
  • Elocution(口調)―― 発音やイントネーション、スピードなどが自然に聞こえるように発声されているかどうかです。

ガイドラインでは、3つの要因を評価する具体例が挙げられています。

ウェブ検索の品質評価ガイドラインとは違って、音声回答の品質評価ガイドラインには音声検索の最適化に今すぐ直接に役立つような情報が含まれているようには僕には思えませんでした。
どちらかというと、Google 側に頑張ってもらうための評価ですね(まあ、ガイドラインはもともとそういう目的で使われるものですが)。

それでも、非常に興味深い内容であることは確かなことです。
一読する価値はあります。
まだ初版で、今後は更新が繰り返されるでしょう。
今はたったの7ページなので、あなたも読んでみてください。