robots.txt のルールを即座にテスト。ファイルを貼り付け、クローラーを選択すると、どの URL が許可またはブロックされているか正確に確認できます。
| Line | Directive | Value | Applies To | Status |
|---|
A robots.txt ファイルは、ウェブサイトのルートに配置されるシンプルなテキストドキュメントで、検索エンジンのボットにクロール指示を伝えます。Googlebot のようなクローラーがサイトを訪れると、最初に確認するのは https://yoursite.com/robots.txt です。このファイルは、クローラーがアクセスできるページやディレクトリ、スキップすべきものを指示します。この仕組みは Robots Exclusion Protocol と呼ばれ、1994 年から使用されている標準です。
robots.txt はアクセス制御を強制するものではありません(不正なボットは無視できる)ものの、主要な検索エンジンや信頼できる AI クローラーはこれを遵守します。正しい robots.txt を設定することは、インデックス対象の制御、機密ディレクトリの保護、クロール予算の管理、AI モデルによるコンテンツ学習の防止に不可欠です。
このツールは、Googlebot が従うのと同じルールに基づいて robots.txt を解析し、以下の主要な動作を実装しています。
User-agent: * のワイルドカードセクションにフォールバックします。*) は任意の文字列にマッチします。ドル記号 ($) はパターンを URL の末尾に固定します。例として、Disallow: /*.pdf$ は .pdf で終わるすべての URL をブロックします。User-agent, Disallow) は大文字小文字を区別しませんが、URL パスはケースセンシティブでマッチします。大規模言語モデルの台頭に伴い、多くのサイト所有者はコンテンツが学習データとして使用されるのを防ぎたいと考えています。主要な AI 企業はブロック可能な特定のユーザーエージェント文字列を導入しています。
検索エンジンのクローラーはインデックスさせたまま、すべての AI クローラーをブロックできます。このテスターでルールが意図通りに機能するか確認し、Robots.txt Generator で正しい形式のファイルをゼロから作成しましょう。
経験豊富なウェブマスターでも、robots.txt で以下のようなミスを犯しがちです。
Disallow: /admin は /admin と /admin/page の両方をブロックしますが、/administrator もブロックしてしまいます。より正確にするには /admin/ を使用してください。このテスターを Schema Generator と SERP Previewer と組み合わせて、検索エンジンがコンテンツにアクセスし、魅力的に表示できるようにしましょう。
robots.txt ファイルは、ウェブサイトのルート(例: example.com/robots.txt)に配置されるプレーンテキストファイルで、検索エンジンのクローラーにどのページにアクセスでき、できないかを指示します。Robots Exclusion Protocol に従い、クローラーがサイトをスキャンする前に最初に確認するファイルです。
robots.txt は 2 つのワイルドカード文字をサポートします。アスタリスク (*) は任意の文字列にマッチし、ドル記号 ($) はマッチを URL の末尾に固定します。例として、"Disallow: /*.pdf$" は .pdf で終わるすべての URL をブロックし、"Disallow: /private*" は /private で始まるすべての URL パスをブロックします。
それはコンテンツ戦略次第です。AI クローラーをブロックすると、コンテンツが言語モデルの学習に使用されるのを防げます。多くの出版社はオリジナルコンテンツを保護するためにこれらのクローラーをブロックしていますが、広い可視性を求めて許可するケースもあります。従来の検索エンジンのクローラーは許可したまま、AI クローラーだけを選択的にブロックすることが可能です。
完全には防げません。robots.txt はクローラーがページを読み取ることを防ぎますが、他サイトからリンクがある場合、Google は URL 自体をインデックスできます。その結果、説明が利用できない旨の表示が出ます。インデックスを完全に防止するには、"noindex" メタタグまたは X-Robots-Tag ヘッダーを robots.txt と併用してください。