Web クローラー (Web Crawler) とは、Web ページを自動的に巡回し、コンテンツを収集するプログラムです。検索エンジンのインデックス構築に不可欠な技術で、Google の Googlebot、Bing の Bingbot などが代表的です。スパイダー、ボットとも呼ばれます。
クローラーの動作は、シード URL からページを取得し、ページ内のリンクを抽出して新たな URL をクロールキューに追加するという再帰的なプロセスです。robots.txt の指示に従い、クロール頻度やアクセス対象を制御します。<% if (typeof amazonTag !== 'undefined' && amazonTag) { %><a href="https://www.amazon.co.jp/s?k=検索エンジン%20クローラー%20仕組み&tag=<%= amazonTag %>" target="_blank" rel="nofollow noopener noreferrer" class="amazon-inline-link">Amazon の関連書籍</a><% } else { %>Amazon の関連書籍<% } %>も参考になります。
短縮 URL サービスでは、クローラーが短縮 URL にアクセスした際のリダイレクト処理が重要です。301 リダイレクトの場合、クローラーは最終的なリダイレクト先のページをインデックスし、短縮 URL 自体はインデックスしません。
クローラビリティ (クローラーがサイトを効率的に巡回できるか) を向上させるには、サイトマップの提供、内部リンクの最適化、ページ読み込み速度の改善が効果的です。<% if (typeof amazonTag !== 'undefined' && amazonTag) { %><a href="https://www.amazon.co.jp/s?k=SEO%20クローラビリティ%20改善&tag=<%= amazonTag %>" target="_blank" rel="nofollow noopener noreferrer" class="amazon-inline-link">SEO クローラビリティの実践書</a><% } else { %>SEO クローラビリティの実践書<% } %>も役立ちます。