Google、スキャンしたPDFをOCRでインデックス

Googleは、OCR(Optical Character Recognition:光学式文字認識)の技術を用いて、スキャナーで読み取って作成したPDFファイルをインデックスできるようになったと公式ブログで発表しました。

スキャンして作ったPDFは、Wordなどから変換して作ったPDFとは違って、画像です。
人間には同じ「文字」に見えても、それは写されたモノです。

今回の拡張により、OCRで画像の中にある文字を、文字データとして認識することができるようになりました。

本などの印刷物をスキャンした場合はともかくとして、スキャンデータが手書きの文書だった場合、どのくらい正確に読み取れるのか気になりますが、今後はより多くのPDFがSERPに入り込んできそうですね。

SEOに取り組むWebマスターにとっては、争うライバルが増えたことになるかもしれません。
もっとも、上手に使えば味方が増えたということにもなりますが。

以前に、Googleが画像の中にある文字を認識する特許を取得したことをレポートしました。

今後、Googleが所有する技術が進歩すれば、PDFだけではなく他の種類の画像に含まれた文字もインデックス対象になっていくでしょう。