Robots.txt es un archivo de texto plano colocado en la raíz de un sitio web que proporciona instrucciones a los rastreadores web sobre qué partes del sitio deben o no acceder. El archivo sigue el Protocolo de Exclusión de Robots, una convención que los rastreadores bien comportados respetan, aunque es consultivo en lugar de obligatorio.
La sintaxis es sencilla: las directivas User-agent especifican a qué rastreador se aplican las reglas, y las directivas Disallow listan las rutas que no deben rastrearse. Una directiva Allow puede anular un Disallow para rutas específicas. El archivo también puede incluir una directiva Sitemap que apunte al sitemap XML del sitio. Los libros sobre rastreo web en Amazon explican la especificación.
Para los servicios de acortamiento de URL, robots.txt cumple un doble papel. El propio sitio web del servicio usa robots.txt para guiar a los rastreadores hacia las páginas importantes mientras bloquea las áreas administrativas. Los endpoints de redirección, sin embargo, generalmente deben ser accesibles para los rastreadores para que los motores de búsqueda puedan seguir las URL cortas y descubrir el contenido de destino.
Consideraciones importantes incluyen no usar robots.txt para ocultar contenido sensible (no previene la indexación si las páginas están enlazadas desde otros lugares), probar el archivo con el probador de robots.txt de Google y ser consciente de que diferentes rastreadores pueden interpretar los casos extremos de manera diferente. Los libros sobre motores de búsqueda en Amazon discuten estos matices.