Web クローラー (Web Crawler) とは、 Web ページを自動的に巡回し、コンテンツを収集するプログラムです。検索エンジンのインデックス構築に不可欠な技術であり、 Googlebot 、 Bingbot 、 Yandex Bot などが代表的です。
クローラーの動作原理は、シード URL (起点となる URL) からページを取得し、ページ内のリンクを抽出して次のクロール対象に追加する、という処理を再帰的に繰り返すものです。 Google は 1 日に数十億ページをクロールしていますが、すべてのページを同じ頻度でクロールするわけではありません。ページの重要度 (被リンク数、更新頻度など) に基づいてクロール優先度を決定しています。
クローラーの動作を制御する手段として、 robots.txt (クロール範囲の指定) 、 meta robots タグ (インデックスの制御) 、サイトマップ (クロール対象の明示) 、 Crawl-delay (クロール間隔の指定、 Google は非対応) があります。
短縮 URL サービスでは、クローラーが短縮 URL にアクセスした際のリダイレクト処理が重要です。 301 リダイレクトを使用すると、クローラーはリダイレクト先の URL をインデックスします。 302 リダイレクトの場合、短縮 URL 自体がインデックスされる可能性があります。 SEO 目的のリンクには 301 、クリック解析目的のリンクには 302 を使い分けるのが適切です。関連書籍は Amazon でも探せます。