网络爬虫 (Web Crawler) 是搜索引擎用于自动发现、浏览和索引互联网上网页内容的程序。Google 的爬虫称为 Googlebot，Bing 的称为 Bingbot。爬虫通过跟踪页面中的链接来发现新页面，并将页面内容存储到搜索引擎的索引数据库中。

爬虫的工作流程包括：从种子 URL 列表开始、下载页面内容、解析 HTML 提取链接、将新发现的 URL 加入待爬取队列、重复这个过程。爬虫会遵守 robots.txt 的指令和 meta robots 标签的限制。欢迎参阅在 Amazon 搜索搜索引擎原理书籍。

在 URL 缩短服务中，爬虫的行为需要特别关注。当爬虫访问短链接时，服务器返回重定向响应，爬虫跟踪重定向到达目标页面。短链接服务需要确保重定向响应快速且正确，不会阻碍爬虫的正常工作。

爬取预算 (Crawl Budget) 是搜索引擎分配给每个网站的爬取资源。大量的重定向会消耗爬取预算，因此网站应尽量减少不必要的重定向链。在 Amazon 搜索 SEO 技术书籍讨论了爬取预算的优化策略。

网络爬虫

相关术语