Kostenloses Robots.txt Test-Tool | OneStepToRank

robots.txt Tester

Testen Sie Ihre robots.txt-Regeln sofort. Fügen Sie Ihre Datei ein, wählen Sie einen Crawler und sehen Sie genau, welche URLs erlaubt oder blockiert sind.

Fügen Sie Ihre robots.txt ein

1

Test Result

Hervorgehobenes robots.txt

Regelaufteilung

Line Directive Value Applies To Status

Analyse‑Tipps

Überwachen Sie Ihre Crawl‑Gesundheit

Gehen Sie über das Testen hinaus. OneStepToRank überwacht kontinuierlich, wie Suchmaschinen Ihre Seite crawlen und indexieren, und benachrichtigt Sie über Ranking‑Änderungen in Ihrem gesamten Service‑Gebiet.

Jetzt starten

Was ist eine robots.txt-Datei?

Eine robots.txt-Datei ist ein einfaches Textdokument, das im Root‑Verzeichnis Ihrer Website liegt und Crawling‑Anweisungen an Suchmaschinen‑Bots übermittelt. Wenn ein Crawler wie Googlebot Ihre Seite besucht, prüft er zuerst https://yoursite.com/robots.txt. Die Datei teilt dem Crawler mit, auf welche Seiten oder Verzeichnisse er zugreifen darf und welche er überspringen soll. Dieser Mechanismus ist als Robots Exclusion Protocol bekannt, ein Standard, der seit 1994 verwendet wird.

Obwohl robots.txt keine Zugriffskontrolle durchsetzt (ein schlecht programmierter Bot könnte es ignorieren), respektieren alle großen Suchmaschinen und seriösen KI‑Crawler es. Eine korrekte robots.txt ist entscheidend, um zu steuern, was indexiert wird, sensible Verzeichnisse zu schützen, das Crawl‑Budget zu verwalten und zu verhindern, dass KI‑Modelle Ihre Inhalte zum Training nutzen.

Wie der robots.txt‑Parser funktioniert

Dieses Tool analysiert Ihre robots.txt nach denselben Regeln, denen Googlebot folgt, einschließlich folgender Kernverhalten:

  • User-agent matching: Der Parser sucht zuerst nach einem Abschnitt, der den von Ihnen ausgewählten Crawler anspricht. Wird kein spezifischer Treffer gefunden, greift er auf den User-agent: *-Wildcard‑Abschnitt zurück.
  • Allow vs. Disallow Priorität: Wenn sowohl eine Allow‑ als auch eine Disallow‑Regel auf dieselbe URL zutreffen, gewinnt die am spezifischsten Regel (die mit dem längsten passenden Pfad). Bei gleicher Länge hat Allow Vorrang.
  • Wildcard‑Unterstützung: Das Sternchen (*) entspricht einer beliebigen Zeichenfolge. Das Dollarzeichen ($) verankert ein Muster am Ende der URL. Zum Beispiel blockiert Disallow: /*.pdf$ alle URLs, die mit .pdf enden.
  • Groß‑/Kleinschreibung: Direktiven‑Namen (User-agent, Disallow) sind nicht case‑sensitive, aber URL‑Pfade werden case‑sensitiv verglichen.

KI‑Crawler in robots.txt blockieren

Mit dem Aufkommen großer Sprachmodelle möchten viele Website‑Betreiber verhindern, dass ihre Inhalte als Trainingsdaten verwendet werden. Die großen KI‑Unternehmen haben spezifische User‑Agent‑Strings eingeführt, die Sie blockieren können:

  • GPTBot und ChatGPT-User – OpenAIs Crawler für Modell‑Training und ChatGPT‑Web‑Browsing.
  • ClaudeBot und Claude-Web – Anthropics Crawler für Claude‑Trainingsdaten und Web‑Zugriff.
  • CCBot – Der Bot von Common Crawl, dessen Datensatz zum Training vieler Open‑Source‑Modelle verwendet wird.
  • Google-Extended – Googles Opt‑Out für das Gemini‑KI‑Training (separat vom Googlebot‑Such‑Indexing).
  • PerplexityBot – Perplexity AIs Crawler für sein Suchprodukt.
  • Bytespider – ByteDances Crawler, verbunden mit den KI‑Initiativen von TikTok.

Sie können alle KI‑Crawler blockieren und gleichzeitig Suchmaschinen‑Crawlern das Indexieren Ihrer Seite erlauben. Nutzen Sie diesen Tester, um zu prüfen, ob Ihre Regeln wie gewünscht funktionieren, und unseren Robots.txt Generator, um von Grund auf eine korrekt formatierte Datei zu erstellen.

Häufige robots.txt‑Fehler

Auch erfahrene Webmaster machen diese Fehler mit robots.txt:

  • Blockieren von CSS‑ und JS‑Dateien: Google muss Ihre Seiten rendern, um deren Inhalt zu verstehen. Das Blockieren von Stylesheets oder JavaScript kann Ihr Ranking beeinträchtigen.
  • Verwendung von robots.txt anstelle von noindex: robots.txt verhindert das Crawlen, nicht das Indexieren. Eine durch robots.txt blockierte Seite kann dennoch in den Suchergebnissen erscheinen (ohne Snippet), wenn andere Websites darauf verlinken.
  • Vergessen des abschließenden Schrägstrichs: Disallow: /admin blockiert sowohl /admin als auch /admin/page, aber auch /administrator. Verwenden Sie /admin/ für mehr Präzision.
  • Nach Änderungen nicht testen: Ein einziger Tippfehler kann versehentlich Ihre gesamte Seite blockieren. Testen Sie immer mit einem Tool wie diesem nach einer Bearbeitung.

Kombinieren Sie diesen Tester mit unserem Schema Generator und dem SERP Previewer, um sicherzustellen, dass Suchmaschinen Ihre Inhalte sowohl abrufen als auch ansprechend darstellen können.

Häufig gestellte Fragen

Was ist eine robots.txt-Datei?

Eine robots.txt-Datei ist eine einfache Textdatei, die im Root‑Verzeichnis Ihrer Website liegt (z. B. example.com/robots.txt) und Suchmaschinen‑Crawlern mitteilt, welche Seiten sie abrufen dürfen und welche nicht. Sie folgt dem Robots Exclusion Protocol und ist die erste Datei, die Crawler prüfen, bevor sie Ihre Seite durchsuchen.

Wie funktionieren Wildcards in robots.txt?

Robots.txt unterstützt zwei Wildcard‑Zeichen: Das Sternchen (*) entspricht einer beliebigen Zeichenfolge, und das Dollarzeichen ($) verankert das Muster am Ende der URL. Zum Beispiel blockiert "Disallow: /*.pdf$" alle URLs, die mit .pdf enden, während "Disallow: /private*" jeden URL‑Pfad blockiert, der mit /private beginnt.

Sollte ich KI‑Crawler wie GPTBot und ClaudeBot blockieren?

Das hängt von Ihrer Content‑Strategie ab. Das Blockieren von KI‑Crawlern verhindert, dass Ihre Inhalte zum Training von Sprachmodellen verwendet werden. Viele Publisher blockieren diese Crawler, um Originalinhalte zu schützen, während andere sie für größere Sichtbarkeit zulassen. Sie können KI‑Crawler selektiv blockieren und gleichzeitig traditionelle Suchmaschinen‑Crawler zulassen.

Verhindert robots.txt, dass Seiten in Google erscheinen?

Nicht vollständig. robots.txt verhindert, dass Crawler Ihre Seite lesen, aber Google kann die URL dennoch indexieren, wenn andere Websites darauf verlinken. Das Ergebnis wird mit dem Hinweis angezeigt, dass keine Beschreibung verfügbar ist. Um das Indexieren vollständig zu verhindern, verwenden Sie zusätzlich ein "noindex"‑Meta‑Tag oder den X‑Robots‑Tag‑Header.