抓取预算 (Crawl Budget) 是指 Google 等搜索引擎的爬虫 (Googlebot) 在一定时间内对某个网站进行抓取 (爬行) 的次数上限。Google 会调节每个网站的抓取频率,以避免对服务器造成过大负载。
抓取预算由两个因素决定:抓取速率限制 (基于服务器响应速度的并发抓取数上限) 和抓取需求 (基于网站内容更新频率和受欢迎程度的抓取需求)。
小型网站 (数百页以下) 几乎不需要关注抓取预算。Google 的 Gary Illyes 曾表示「1,000 页以下的网站不需要担心抓取预算」。但对于数万到数百万页的大型网站,抓取预算优化是 SEO 的重要课题。
短链接服务与抓取预算的关系虽然间接但很重要。大量生成短链接的服务中,每个短链接的页面 (预览页面等) 都可能成为爬虫的抓取对象。为防止不必要的页面被抓取,需要通过 robots.txt 控制爬虫访问,并用 noindex 标签阻止不需要的页面被索引。
优化抓取预算的主要方法包括:保持服务器响应速度 (提升抓取速率限制)、删除重复和低质量页面 (精简抓取对象)、通过 XML 站点地图标明重要页面 (引导抓取优先级)、用 robots.txt 屏蔽不必要的路径 (消除无效抓取)。相关书籍可在 Amazon 搜索 中查阅。