Robots.txt 是放置在网站根目录 (如 example.com/robots.txt) 的纯文本文件,遵循 Robots Exclusion Protocol 标准。它通过 User-agent 和 Disallow/Allow 指令告诉搜索引擎爬虫哪些 URL 路径可以爬取、哪些应该跳过。
Robots.txt 的常见用途包括:阻止爬虫访问管理后台、防止重复内容被索引、控制爬取频率以减轻服务器负载、以及指定站点地图的位置。需要注意的是,robots.txt 是一种"君子协定",恶意爬虫可能会忽略它。欢迎参阅在 Amazon 搜索搜索引擎优化书籍。
在 URL 缩短服务中,robots.txt 的配置需要特别注意。短链接的重定向端点不应被 robots.txt 阻止,否则搜索引擎无法跟踪重定向并索引目标页面。同时,内部管理页面和 API 端点应该被适当屏蔽。
常见的 robots.txt 错误包括:意外阻止了重要页面、使用过于宽泛的 Disallow 规则、以及忘记在不同环境 (开发/生产) 中使用不同的配置。在 Amazon 搜索 Web 安全书籍讨论了这些配置策略。