跳至主要内容
短.be

Robots.txt

放置在网站根目录的文本文件,用于指示搜索引擎爬虫哪些页面可以或不可以爬取。

2025年7月18日 · 约 1 分钟阅读

SEO

Robots.txt 是放置在网站根目录 (如 example.com/robots.txt) 的纯文本文件,遵循 Robots Exclusion Protocol 标准。它通过 User-agent 和 Disallow/Allow 指令告诉搜索引擎爬虫哪些 URL 路径可以爬取、哪些应该跳过。

Robots.txt 的常见用途包括:阻止爬虫访问管理后台、防止重复内容被索引、控制爬取频率以减轻服务器负载、以及指定站点地图的位置。需要注意的是,robots.txt 是一种"君子协定",恶意爬虫可能会忽略它。欢迎参阅在 Amazon 搜索搜索引擎优化书籍

在 URL 缩短服务中,robots.txt 的配置需要特别注意。短链接的重定向端点不应被 robots.txt 阻止,否则搜索引擎无法跟踪重定向并索引目标页面。同时,内部管理页面和 API 端点应该被适当屏蔽。

常见的 robots.txt 错误包括:意外阻止了重要页面、使用过于宽泛的 Disallow 规则、以及忘记在不同环境 (开发/生产) 中使用不同的配置。在 Amazon 搜索 Web 安全书籍讨论了这些配置策略。

分享到 XHatena

这篇文章对您有帮助吗?

相关术语

相关文章

常见问题

用 robots.txt 阻止抓取的页面会被索引吗?
抓取会被阻止,但如果被其他页面链接,URL 可能仍会保留在索引中。要完全从索引中排除,请使用 noindex meta 标签。
robots.txt 配置错误会导致什么问题?
阻止重要页面的抓取会导致其从搜索结果中消失。阻止 CSS 或 JavaScript 也会影响搜索引擎的渲染。

想要创建短链接吗?

免费缩短网址