動画を理解するためにGoogleが利用する4つの方法

[レベル: 上級]

Google の Gary Illyes(ゲイリー・イリェーシュ)氏と Lizzi Sassman(リッツィ・サスマン)氏がホストする Search Off the Record ポッドキャストの最新エピソードのトピックは「動画と検索」です。
このトピックについて、ゲスト出演した Danielle Marshak(ダニエル・マーシャク)氏が語りました。

この記事では、ダニエル氏が説明した、動画の内容を Google がどのようにして理解しているかの部分を取りあげます。

4 つの方法で動画を理解する

動画を理解するために Google が利用する方法としてダニエル氏が言及したのは次の 4 つです。

  • テキスト
    • 音声
    • 動画内の見出し
  • 映っている物体
  • 構造化データ

テキスト: 音声

まず、Google が利用するのはテキスト情報です。
動画の音声を抜き出してテキスト化します。

テキストの理解は Google にはお手のものです。
音であっても、いったん文字になれば理解が容易になります。

テキスト: 動画内の見出し

テキスト情報としてもう 1 つ利用するのは、動画に現れるテキストです。
特に、重要なシーンを理解するために見出しに注視します。

たとえば、「ネコについて説明します」という見出しが出てくれば、ネコの説明の映像がそのあとに流れると判断できます。

映像として映っているテキストは OCR によってテキスト変換できます。

映っている物体

動画に映っている物体や起こっている出来事そのものも今の Google は理解しつつあります。
たとえば、ドーナツが映っているとかイヌが映っているとかです。

しかしながら、コンピュータが視覚要素をそのまま認識するのはそう簡単なことではありません。
ときには人間でさえ識別するのが難しい場合もあります。
Google と言えど、視覚認識の分野に関してはまだまだ発展途上です。

構造化データ

構造化データは、動画を理解するために Google にとって依然として重要です。

テキスト情報とともに構造化データに Google は頼っています。
何についての動画なのか、どんなクエリに役立つか、こういったことを判断するために構造化データが役立ちます。

構造化データの利用をやめてはいけないとダニエル氏は強調しています。

Google の動画理解を手助けするためためにできること【アイディア】

以上が、ダニエル氏が言及した、動画の理解のために Google が利用する 4 つの方法です。

Google の理解を手助けするために僕たちには何ができるでしょうか?

こんなのを思い付きました。

  • 音声抽出しやすいように、滑舌よくゆっくり話す
  • 文字起こししたときに、きちんとした文になるように話す
  • 要所要所で、見出しを入れる
  • 映像は鮮明に
  • 余計なものを写り込ませない(動画 SEO の解説動画でネコと一緒に映るとか🧑‍🦰🎬😺)
  • 構造化データでマークアップする(これは必須)

ほかにはこんな施策も役立ちそうというアイディアがあれば教えてください。

ポッドキャストを音声で聴きたい方向けにポッドキャストを埋め込んでおきます。
トランスクリプト (PDF) はこちらからダウンロードできます。