無料 Robots.txt テスター ツール | OneStepToRank

robots.txt テスター

robots.txt のルールを即座にテスト。ファイルを貼り付け、クローラーを選択すると、どの URL が許可またはブロックされているか正確に確認できます。

robots.txt を貼り付け

1

Test Result

ハイライトされた robots.txt

ルールの内訳

Line Directive Value Applies To Status

分析ヒント

サイトの クロールヘルス を監視

テストを超えて、OneStepToRank が検索エンジンのクロールとインデックス状況を継続的に監視し、サービス全域のランキング変動を通知します。

始める

robots.txt ファイルとは?

A robots.txt ファイルは、ウェブサイトのルートに配置されるシンプルなテキストドキュメントで、検索エンジンのボットにクロール指示を伝えます。Googlebot のようなクローラーがサイトを訪れると、最初に確認するのは https://yoursite.com/robots.txt です。このファイルは、クローラーがアクセスできるページやディレクトリ、スキップすべきものを指示します。この仕組みは Robots Exclusion Protocol と呼ばれ、1994 年から使用されている標準です。

robots.txt はアクセス制御を強制するものではありません(不正なボットは無視できる)ものの、主要な検索エンジンや信頼できる AI クローラーはこれを遵守します。正しい robots.txt を設定することは、インデックス対象の制御、機密ディレクトリの保護、クロール予算の管理、AI モデルによるコンテンツ学習の防止に不可欠です。

robots.txt パーサーの動作原理

このツールは、Googlebot が従うのと同じルールに基づいて robots.txt を解析し、以下の主要な動作を実装しています。

  • User-agent のマッチング: パーサーはまず、選択した特定のクローラーを対象としたセクションを探します。該当がなければ、User-agent: * のワイルドカードセクションにフォールバックします。
  • Allow と Disallow の優先順位: Allow と Disallow の両方のルールが同じ URL にマッチした場合、最も具体的なルールが優先(最長のパスが一致するもの)。長さが同じ場合は Allow が優先されます。
  • ワイルドカードのサポート: アスタリスク (*) は任意の文字列にマッチします。ドル記号 ($) はパターンを URL の末尾に固定します。例として、Disallow: /*.pdf$.pdf で終わるすべての URL をブロックします。
  • 大文字小文字の区別: ディレクティブ名 (User-agent, Disallow) は大文字小文字を区別しませんが、URL パスはケースセンシティブでマッチします。

robots.txt で AI クローラーをブロックする

大規模言語モデルの台頭に伴い、多くのサイト所有者はコンテンツが学習データとして使用されるのを防ぎたいと考えています。主要な AI 企業はブロック可能な特定のユーザーエージェント文字列を導入しています。

  • GPTBotChatGPT-User — OpenAI のモデル学習および ChatGPT のウェブ閲覧用クローラー。
  • ClaudeBotClaude-Web — Anthropic の Claude 用学習データおよびウェブアクセス用クローラー。
  • CCBot — Common Crawl のボットで、そのデータセットは多数のオープンソースモデルの学習に使用されます。
  • Google-Extended — Google の Gemini AI 学習用オプトアウト(Googlebot の検索インデックスとは別)。
  • PerplexityBot — Perplexity AI の検索製品用クローラー。
  • Bytespider — ByteDance のクローラーで、TikTok の AI 活動に関連しています。

検索エンジンのクローラーはインデックスさせたまま、すべての AI クローラーをブロックできます。このテスターでルールが意図通りに機能するか確認し、Robots.txt Generator で正しい形式のファイルをゼロから作成しましょう。

一般的な robots.txt のミス

経験豊富なウェブマスターでも、robots.txt で以下のようなミスを犯しがちです。

  • CSS や JS ファイルをブロックする: Google はページをレンダリングして内容を理解する必要があります。スタイルシートや JavaScript をブロックするとランキングに悪影響を及ぼす可能性があります。
  • noindex の代わりに robots.txt を使用する: robots.txt はクロールを防止しますが、インデックスは防げません。robots.txt でブロックされたページでも、他サイトからリンクされていれば検索結果に表示されます(スニペットなし)。
  • 末尾のスラッシュを忘れる: Disallow: /admin/admin/admin/page の両方をブロックしますが、/administrator もブロックしてしまいます。より正確にするには /admin/ を使用してください。
  • 変更後にテストしない: 1 つのタイプミスでサイト全体が誤ってブロックされることがあります。編集後は必ずこのようなツールでテストしてください。

このテスターを Schema GeneratorSERP Previewer と組み合わせて、検索エンジンがコンテンツにアクセスし、魅力的に表示できるようにしましょう。

よくある質問

robots.txt ファイルとは何ですか?

robots.txt ファイルは、ウェブサイトのルート(例: example.com/robots.txt)に配置されるプレーンテキストファイルで、検索エンジンのクローラーにどのページにアクセスでき、できないかを指示します。Robots Exclusion Protocol に従い、クローラーがサイトをスキャンする前に最初に確認するファイルです。

robots.txt のワイルドカードはどのように機能しますか?

robots.txt は 2 つのワイルドカード文字をサポートします。アスタリスク (*) は任意の文字列にマッチし、ドル記号 ($) はマッチを URL の末尾に固定します。例として、"Disallow: /*.pdf$" は .pdf で終わるすべての URL をブロックし、"Disallow: /private*" は /private で始まるすべての URL パスをブロックします。

GPTBot や ClaudeBot などの AI クローラーをブロックすべきですか?

それはコンテンツ戦略次第です。AI クローラーをブロックすると、コンテンツが言語モデルの学習に使用されるのを防げます。多くの出版社はオリジナルコンテンツを保護するためにこれらのクローラーをブロックしていますが、広い可視性を求めて許可するケースもあります。従来の検索エンジンのクローラーは許可したまま、AI クローラーだけを選択的にブロックすることが可能です。

robots.txt はページが Google に表示されるのを防ぎますか?

完全には防げません。robots.txt はクローラーがページを読み取ることを防ぎますが、他サイトからリンクがある場合、Google は URL 自体をインデックスできます。その結果、説明が利用できない旨の表示が出ます。インデックスを完全に防止するには、"noindex" メタタグまたは X-Robots-Tag ヘッダーを robots.txt と併用してください。