robots.txt とは、Web サイトのルートディレクトリに配置するテキストファイルで、検索エンジンのクローラー (ロボット) に対してクロールの許可・拒否を指示します。Robots Exclusion Protocol として標準化されており、すべての主要な検索エンジンが準拠しています。

robots.txt の基本的な構文は、User-agent (対象クローラーの指定)、Disallow (クロール拒否パス)、Allow (クロール許可パス)、Sitemap (サイトマップの URL) で構成されます。たとえば、管理画面へのクロールを拒否しつつ、サイトマップの場所を通知する設定が一般的です。<% if (typeof amazonTag !== 'undefined' && amazonTag) { %><a href="https://www.amazon.co.jp/s?k=robots.txt%20SEO%20設定&tag=<%= amazonTag %>" target="_blank" rel="nofollow noopener noreferrer" class="amazon-inline-link">Amazon の関連書籍</a><% } else { %>Amazon の関連書籍<% } %>も参考になります。

重要な注意点として、robots.txt はクロールの「お願い」であり、強制力はありません。悪意のあるクローラーは robots.txt を無視する可能性があります。機密情報の保護には、認証やアクセス制御を使用すべきです。

開発環境やステージング環境では、robots.txt で全クローラーを拒否 (Disallow: /) し、検索エンジンにインデックスされることを防止します。本番環境への切り替え時に robots.txt の更新を忘れないよう注意が必要です。<% if (typeof amazonTag !== 'undefined' && amazonTag) { %><a href="https://www.amazon.co.jp/s?k=Web%20セキュリティ%20クローラー&tag=<%= amazonTag %>" target="_blank" rel="nofollow noopener noreferrer" class="amazon-inline-link">Web セキュリティの実践書</a><% } else { %>Web セキュリティの実践書<% } %>も役立ちます。

robots.txt

関連用語

サイトマップ

Web クローラー

noindex