robots.txt とは、 Web サイトのルートディレクトリに配置し、検索エンジンのクローラーにクロール範囲を指示するテキストファイルです。 example.com/robots.txt の URL でアクセスでき、 Robots Exclusion Protocol (REP) に基づいています。
robots.txt の基本的な構文は、 User-agent (対象のクローラー) 、 Disallow (クロールを禁止するパス) 、 Allow (クロールを許可するパス) 、 Sitemap (サイトマップの URL) です。 User-agent: * はすべてのクローラーを対象とし、 User-agent: Googlebot は Google のクローラーのみを対象とします。
robots.txt の重要な注意点として、 Disallow はクロールをブロックするだけで、インデックスを防ぐわけではありません。外部サイトからリンクされている場合、 Google はページの内容を見ずに URL だけをインデックスすることがあります。インデックスを確実に防ぐには noindex メタタグを使用してください。
robots.txt の設定ミスは深刻な影響を及ぼします。誤って Disallow: / (サイト全体のクロールを禁止) を設定すると、サイト全体が検索結果から消えます。ステージング環境の robots.txt をそのまま本番環境にデプロイしてしまう事故は実務上よくあるミスです。
短縮 URL サービスでは、リダイレクト用のパス (短縮コード) はクローラーにクロールさせる必要がないため、 robots.txt で Disallow に設定するのが適切です。ただし、ブログ記事や用語集などの SEO 対象ページは Allow にする必要があります。関連書籍は Amazon でも探せます。