Erzeugen Sie eine gültige robots.txt-Datei für Ihre Website. Fügen Sie User-Agent-Regeln, Sitemaps, Crawl-Delays hinzu und nutzen Sie schnelle Voreinstellungen, um sofort loszulegen.
OneStepToRank verfolgt Ihre lokalen Suchrankings über verschiedene Standorte, überwacht Mitbewerber und sendet Ihnen Benachrichtigungen, wenn sich Positionen ändern. Sehen Sie genau, wo Sie in Google Maps ranken.
Jetzt startenEine robots.txt-Datei ist eine reine Textdatei, die im Stammverzeichnis Ihrer Website liegt und Suchmaschinen-Crawlern mitteilt, welche Teile Ihrer Seite sie crawlen dürfen und welche nicht. Sie folgt dem Robots Exclusion Protocol, einem seit 1994 geltenden Industriestandard, den alle großen Suchmaschinen – Google, Bing, Yahoo, Yandex und andere – respektieren. Wenn ein Crawler Ihre Seite aufruft, prüft er zuerst yourdomain.com/robots.txt, um Ihre Crawling‑Präferenzen zu verstehen, bevor er weitere Seiten besucht.
Die Datei verwendet einfache Direktiven, um mit Bots zu kommunizieren. User-agent gibt an, für welchen Crawler die Regeln gelten (verwenden Sie * für alle Bots). Disallow blockiert bestimmte Pfade vor dem Crawlen. Allow erlaubt den Zugriff auf Pfade innerhalb eines gesperrten Verzeichnisses. Sitemap weist Crawler auf Ihre XML‑Sitemap hin, damit sie alle Ihre Seiten effizient entdecken können. Einige Crawler unterstützen zudem Crawl-delay, das Bots anweist, zwischen den Anfragen eine bestimmte Anzahl Sekunden zu warten, um die Serverlast zu reduzieren.
Ein verbreiteter Irrglaube ist, dass robots.txt Seiten davon abhält, in den Suchergebnissen indexiert zu werden. Das ist nicht der Fall. Das Disallow einer URL verhindert, dass Crawler diese besuchen, aber wenn andere Websites darauf verlinken, kann Google die URL dennoch anhand externer Signale wie Ankertext indexieren. Um eine Seite wirklich aus den Suchergebnissen zu entfernen, benötigen Sie ein noindex-Meta‑Tag oder einen X-Robots-Tag-HTTP‑Header. Betrachten Sie robots.txt als Steuerung des Crawl‑Zugriffs, nicht der Index‑Sichtbarkeit.
Ihre robots.txt-Datei sollte immer im Stammverzeichnis Ihrer Domain liegen – erreichbar unter https://yourdomain.com/robots.txt. Sie ist protokoll- und subdomain-spezifisch: Regeln für https://example.com gelten nicht für https://www.example.com oder http://example.com. Jede Variante benötigt ihre eigene Datei. Für die meisten Websites ist das Hinzufügen einer Sitemap‑Direktive, die auf Ihre XML‑Sitemap verweist, das wertvollste, was Sie tun können, da es Crawlern hilft, Ihre Inhalte schneller und vollständiger zu entdecken. Verwenden Sie diesen Generator zusammen mit unserem Meta‑Tag‑Generator und dem Schema‑Generator für ein komplettes technisches SEO‑Setup.
Eine robots.txt-Datei ist eine reine Textdatei, die im Stammverzeichnis Ihrer Website liegt und Suchmaschinen‑Crawlern mitteilt, welche Seiten oder Bereiche sie crawlen dürfen und welche nicht. Sie folgt dem Robots Exclusion Protocol, einem Standard, der von allen großen Suchmaschinen anerkannt wird. Die Datei verwendet Direktiven wie User-agent, Disallow, Allow und Sitemap, um das Verhalten der Crawler zu steuern und zu verwalten, wie Bots mit Ihrer Seite interagieren.
Nein. Eine Disallow‑Direktive in robots.txt weist Crawler an, eine Seite nicht zu crawlen, verhindert jedoch nicht, dass diese Seite in den Suchergebnissen erscheint. Wenn andere Websites auf eine gesperrte URL verlinken, kann Google sie dennoch anhand externer Informationen wie Ankertext indexieren. Um das Indexieren einer Seite wirklich zu verhindern, verwenden Sie stattdessen ein noindex‑Meta‑Tag oder einen X‑Robots‑Tag‑HTTP‑Header. robots.txt steuert den Crawling‑Zugriff, nicht das Indexierungsverhalten.
Ihre robots.txt-Datei muss im Stammverzeichnis Ihrer Website liegen, damit sie unter yourdomain.com/robots.txt erreichbar ist. Die Datei ist protokoll- und subdomain-spezifisch: https://example.com/robots.txt steuert das Crawling nur für https://example.com und nicht für https://www.example.com oder http://example.com. Verwenden Sie mehrere Subdomains, benötigt jede ihre eigene robots.txt‑Datei.
Die am häufigsten verwendeten Direktiven sind User-agent (für welchen Crawler die Regeln gelten, * für alle), Disallow (blockiert einen Pfad vor dem Crawlen), Allow (erlaubt das Crawlen innerhalb eines gesperrten Verzeichnisses), Sitemap (verweist Crawler auf Ihre XML‑Sitemap) und Crawl-delay (verlangt, dass Crawler zwischen den Anfragen eine festgelegte Anzahl Sekunden warten; unterstützt von Bing und Yandex, aber von Google ignoriert). Diese Direktiven müssen exakt syntaktisch korrekt und case‑sensitive sein.