Testen Sie Ihre robots.txt-Regeln sofort. Fügen Sie Ihre Datei ein, wählen Sie einen Crawler und sehen Sie genau, welche URLs erlaubt oder blockiert sind.
| Line | Directive | Value | Applies To | Status |
|---|
Gehen Sie über das Testen hinaus. OneStepToRank überwacht kontinuierlich, wie Suchmaschinen Ihre Seite crawlen und indexieren, und benachrichtigt Sie über Ranking‑Änderungen in Ihrem gesamten Service‑Gebiet.
Jetzt startenEine robots.txt-Datei ist ein einfaches Textdokument, das im Root‑Verzeichnis Ihrer Website liegt und Crawling‑Anweisungen an Suchmaschinen‑Bots übermittelt. Wenn ein Crawler wie Googlebot Ihre Seite besucht, prüft er zuerst https://yoursite.com/robots.txt. Die Datei teilt dem Crawler mit, auf welche Seiten oder Verzeichnisse er zugreifen darf und welche er überspringen soll. Dieser Mechanismus ist als Robots Exclusion Protocol bekannt, ein Standard, der seit 1994 verwendet wird.
Obwohl robots.txt keine Zugriffskontrolle durchsetzt (ein schlecht programmierter Bot könnte es ignorieren), respektieren alle großen Suchmaschinen und seriösen KI‑Crawler es. Eine korrekte robots.txt ist entscheidend, um zu steuern, was indexiert wird, sensible Verzeichnisse zu schützen, das Crawl‑Budget zu verwalten und zu verhindern, dass KI‑Modelle Ihre Inhalte zum Training nutzen.
Dieses Tool analysiert Ihre robots.txt nach denselben Regeln, denen Googlebot folgt, einschließlich folgender Kernverhalten:
User-agent: *-Wildcard‑Abschnitt zurück.*) entspricht einer beliebigen Zeichenfolge. Das Dollarzeichen ($) verankert ein Muster am Ende der URL. Zum Beispiel blockiert Disallow: /*.pdf$ alle URLs, die mit .pdf enden.User-agent, Disallow) sind nicht case‑sensitive, aber URL‑Pfade werden case‑sensitiv verglichen.Mit dem Aufkommen großer Sprachmodelle möchten viele Website‑Betreiber verhindern, dass ihre Inhalte als Trainingsdaten verwendet werden. Die großen KI‑Unternehmen haben spezifische User‑Agent‑Strings eingeführt, die Sie blockieren können:
Sie können alle KI‑Crawler blockieren und gleichzeitig Suchmaschinen‑Crawlern das Indexieren Ihrer Seite erlauben. Nutzen Sie diesen Tester, um zu prüfen, ob Ihre Regeln wie gewünscht funktionieren, und unseren Robots.txt Generator, um von Grund auf eine korrekt formatierte Datei zu erstellen.
Auch erfahrene Webmaster machen diese Fehler mit robots.txt:
Disallow: /admin blockiert sowohl /admin als auch /admin/page, aber auch /administrator. Verwenden Sie /admin/ für mehr Präzision.Kombinieren Sie diesen Tester mit unserem Schema Generator und dem SERP Previewer, um sicherzustellen, dass Suchmaschinen Ihre Inhalte sowohl abrufen als auch ansprechend darstellen können.
Eine robots.txt-Datei ist eine einfache Textdatei, die im Root‑Verzeichnis Ihrer Website liegt (z. B. example.com/robots.txt) und Suchmaschinen‑Crawlern mitteilt, welche Seiten sie abrufen dürfen und welche nicht. Sie folgt dem Robots Exclusion Protocol und ist die erste Datei, die Crawler prüfen, bevor sie Ihre Seite durchsuchen.
Robots.txt unterstützt zwei Wildcard‑Zeichen: Das Sternchen (*) entspricht einer beliebigen Zeichenfolge, und das Dollarzeichen ($) verankert das Muster am Ende der URL. Zum Beispiel blockiert "Disallow: /*.pdf$" alle URLs, die mit .pdf enden, während "Disallow: /private*" jeden URL‑Pfad blockiert, der mit /private beginnt.
Das hängt von Ihrer Content‑Strategie ab. Das Blockieren von KI‑Crawlern verhindert, dass Ihre Inhalte zum Training von Sprachmodellen verwendet werden. Viele Publisher blockieren diese Crawler, um Originalinhalte zu schützen, während andere sie für größere Sichtbarkeit zulassen. Sie können KI‑Crawler selektiv blockieren und gleichzeitig traditionelle Suchmaschinen‑Crawler zulassen.
Nicht vollständig. robots.txt verhindert, dass Crawler Ihre Seite lesen, aber Google kann die URL dennoch indexieren, wenn andere Websites darauf verlinken. Das Ergebnis wird mit dem Hinweis angezeigt, dass keine Beschreibung verfügbar ist. Um das Indexieren vollständig zu verhindern, verwenden Sie zusätzlich ein "noindex"‑Meta‑Tag oder den X‑Robots‑Tag‑Header.