インデックスされているURLとされていないURLの理想的な比率は何パーセントか?

[レベル: 初級]

Google は、発見した URL をすべてインデックスしません。
では、サイト内のどのくらいのパーセンテージの URL がインデックスされるのが理想なのでしょうか?
インデックスの問題を示すしきい値はあるのでしょうか?

理想のパーセンテージはないし、問題を示すしきい値もない

Google の John Mueller(ジョン・ミューラー)氏が次のように質問されました。

悪い URL をブロック/インデックス削除/消去して、良い URLをインデックスさせるように普通はしています。良い URL でもすべてをインデックスさせることはできないんですよね? どのくらいのパーセンテージを目指すべきでしょうか?

ミューラー氏はこう回答します。

パーセンテージというものはない。普通は、すべての URL がインデックスされるとは限らないというのはたしかにそのとおりだ。

そういうわけで、探しているページにユーザーがたどり着けるようにサイト内のナビゲーションをわかりやすくすることが重要になってくる。

別のユーザーからも似たような質問を尋ねられます。

すべてのページがインデックスされるとは限らないのは明らかに普通のことですが、問題を示すしきい値はありますか?

たとえばインデックスされていないURL と インデックスされているページの比率が、2:1 や 5:1、20:1 のように。

この質問に対するミューラー氏の回答です。

サイトや設定、価値で本当に変わってくる。たとえば終了日がないカレンダーを設置していればたくさんの日付ができあがるだろうが、それは必ずしも問題にはならない。

ここは、ユーザー体験がかかわってくる部分だ。どのページがインデックスされていて、どのページがインデックスされていないのか?

ミューラー氏によれば、何パーセントをインデックスさせればいいのかやどのくらいがインデックスされていないと悪い兆候なのかを表す決まった数値は存在しないとのことです。

考慮すべきは、インデックスされるべき URL がインデックスされてるかどうか

Search Console の [ページのインデックス登録] レポート(旧カバレッジ レポート)でインデックスされているページとされていないページの状況を確認できます。

ページのインデックス登録 レポート

僕のブログのインデックス状況はこうなっています。

  • インデックス未登録: 15 万
  • インデックス登録済み: 1.23 万

インデックスされていないページは、インデックスされているページの約 12 倍です。
これは良い状態なのでしょうか?
それとも悪い状態なのでしょうか?

インデックスされなかった理由で特に気になってしまうのは次の 2 つでしょう。

  • クロール済み – インデックス未登録
  • 検出 – インデックス未登録
ページのインデックス登録 レポート

Google が、発見したにもかわからずインデックスしていない URL です。
しかも「ソース」が「システム」となっていて、理由は Google 側の判断によるものです。
サイト側の設定によるではありません。

インデックス未登録の URL が無視できるものなのかそれとも問題を示すものなのかは、それこそミューラー氏が言うように、状況によります。

たとえば、僕のブログでは見たことのないパラメータが付いた URL が大量にレポートされています(上の 2 つ)。

ページのインデックス登録 レポート

おそらく他のサイトで発見された URL と思われます。
こんな URL がインデックスされていなくてもまったく問題ありません。

キャプチャの下の 2 つの URL は RSS フィードの URL です。
フィードが検索結果に出てこなくても何も問題ありません。
したがって、こちらも、インデックスされていないとしても無視できます。

インデックスされる必要がない URL がインデックスされていないのですから、何も心配いりません。
むしろ、こうした URL がインデックスされてしまうほうが問題でしょう。

問題となるのは、インデックスされるべきページが [インデックス未登録] に数多くレポートされてしまう状況です。
何らかの問題(多くは、品質の問題? 超大規模サイトでは Crawlability/Indexability?)を抱えています。
📝すずき TIPS: Google が発見した直後の URL がここに出てくるかもしれないが、問題がなければ時間がたてばインデックスされる。また、重要だと Google が判断する URL から順にレポートに出てくるので、上の方にある URL が無視できるならその下にある URL も通常は無視できる。

まとめ

この記事のまとめです。

  • すべての URL がインデックスされないのは普通(数ページしかないサイトでない限りすべてのページがインデックスされることはない)
  • インデックスされていない URL が問題を示すかどうかは状況による
    • 検索結果に出てこなくていい URL がインデックスされていないのであれば無視できる
    • インデックスされるべき URL がインデックスされていないのであれば対処が必要(対処方法も状況による)