Robots.txt

放置在网站根目录的文本文件，用于指示搜索引擎爬虫哪些页面可以或不可以爬取。

2026年5月1日 · 约 1 分钟阅读

SEO

Robots.txt 是放置在网站根目录 (如 example.com/robots.txt) 的纯文本文件，遵循 Robots Exclusion Protocol 标准。它通过 User-agent 和 Disallow/Allow 指令告诉搜索引擎爬虫哪些 URL 路径可以爬取、哪些应该跳过。

Robots.txt 的常见用途包括：阻止爬虫访问管理后台、防止重复内容被索引、控制爬取频率以减轻服务器负载、以及指定站点地图的位置。需要注意的是，robots.txt 是一种"君子协定"，恶意爬虫可能会忽略它。欢迎参阅在 Amazon 搜索搜索引擎优化书籍。

在 URL 缩短服务中，robots.txt 的配置需要特别注意。短链接的重定向端点不应被 robots.txt 阻止，否则搜索引擎无法跟踪重定向并索引目标页面。同时，内部管理页面和 API 端点应该被适当屏蔽。

常见的 robots.txt 错误包括：意外阻止了重要页面、使用过于宽泛的 Disallow 规则、以及忘记在不同环境 (开发/生产) 中使用不同的配置。在 Amazon 搜索 Web 安全书籍讨论了这些配置策略。

分享到 X Hatena

这篇文章对您有帮助吗？

常见问题

用 robots.txt 阻止抓取的页面会被索引吗？

抓取会被阻止，但如果被其他页面链接，URL 可能仍会保留在索引中。要完全从索引中排除，请使用 noindex meta 标签。

robots.txt 配置错误会导致什么问题？

阻止重要页面的抓取会导致其从搜索结果中消失。阻止 CSS 或 JavaScript 也会影响搜索引擎的渲染。

把知识用到真实链接上

免费缩短网址

Robots.txt

相关术语

站点地图

网络爬虫

Noindex

抓取预算

重定向预算

滚动深度

相关文章

网址缩短对 SEO 的影响与对策

什么是网址缩短服务？全面解析其原理与优势

短链接与 GDPR 及个人信息保护法的合规指南

常见问题