クロールバジェット (Crawl Budget) とは、Google などの検索エンジンのクローラー (Googlebot) が、一定期間内にあるサイトをクロール (巡回) する回数の上限のことです。Google はサーバーに過度な負荷をかけないよう、サイトごとにクロール頻度を調整しています。
クロールバジェットは 2 つの要素で決まります。クロールレートリミット (サーバーの応答速度に基づく同時クロール数の上限) と、クロールデマンド (そのサイトのコンテンツがどれだけ頻繁に更新され、どれだけ人気があるかに基づくクロール需要) です。
小規模サイト (数百ページ以下) ではクロールバジェットを意識する必要はほとんどありません。Google の Gary Illyes 氏は「1,000 ページ以下のサイトはクロールバジェットを心配する必要はない」と述べています。しかし、数万〜数百万ページの大規模サイトでは、クロールバジェットの最適化が SEO の重要な課題になります。
短縮 URL サービスとクロールバジェットの関係は間接的ですが重要です。短縮 URL を大量に生成するサービスでは、各短縮 URL のページ (プレビューページなど) がクローラーの対象になる可能性があります。不要なページのクロールを防ぐために、robots.txt でクローラーのアクセスを制御し、noindex タグで不要なページのインデックスを防止することが重要です。
クロールバジェットを最適化する主な手法は、サーバーの応答速度を高速に保つ (クロールレートリミットの向上)、重複コンテンツや低品質ページを削除する (クロール対象の絞り込み)、XML サイトマップで重要なページを明示する (クロール優先度の誘導)、robots.txt で不要なパスをブロックする (無駄なクロールの排除) です。関連書籍は Amazon でも探せます。