Test uw robots.txt regels direct. Plak uw bestand, kies een crawler, en zie precies welke URL's zijn toegestaan of geblokkeerd.
| Line | Directive | Value | Applies To | Status |
|---|
Ga verder dan alleen testen. OneStepToRank monitort continu hoe zoekmachines uw site crawlen en indexeren, en waarschuwt u bij rangschikkingsveranderingen in uw gehele servicegebied.
Aan de slagEen robots.txt bestand is een eenvoudig tekstdocument geplaatst in de root van uw website dat crawl‑instructies communiceert aan zoekmachine‑bots. Wanneer een crawler zoals Googlebot uw site bezoekt, controleert deze eerst https://yoursite.com/robots.txt. Het bestand vertelt de crawler welke pagina's of directories toegankelijk zijn en welke overgeslagen moeten worden. Dit mechanisme staat bekend als het Robots Exclusion Protocol, een standaard die sinds 1994 wordt gebruikt.
Hoewel robots.txt geen toegangscontrole afdwingt (een misdragende bot kan het negeren), respecteren alle grote zoekmachines en gerenommeerde AI‑crawlers het. Het correct instellen van uw robots.txt is essentieel voor het bepalen wat geïndexeerd wordt, het beschermen van gevoelige directories, het beheren van crawlbudget en het voorkomen dat AI‑modellen uw inhoud gebruiken voor training.
Deze tool parseert uw robots.txt volgens dezelfde regels die Googlebot hanteert, inclusief de volgende belangrijke gedragingen:
User-agent: * wildcard‑sectie.*) staat voor elke reeks tekens. Het dollarteken ($) verankert een patroon aan het einde van de URL. Bijvoorbeeld, Disallow: /*.pdf$ blokkeert alle URL's die eindigen op .pdf.User-agent, Disallow) zijn niet hoofdlettergevoelig, maar URL‑paden worden hoofdlettergevoelig vergeleken.Met de opkomst van grote taalmodellen willen veel site‑eigenaren voorkomen dat hun inhoud wordt gebruikt als trainingsdata. De grote AI‑bedrijven hebben specifieke user‑agent‑strings geïntroduceerd die u kunt blokkeren:
U kunt alle AI‑crawlers blokkeren terwijl u zoekmachine‑crawlers nog steeds toestaat uw site te indexeren. Gebruik deze tester om te verifiëren dat uw regels werken zoals bedoeld, en onze Robots.txt Generator om vanaf nul een correct geformatteerd bestand te maken.
Zelfs ervaren webmasters maken deze fouten met robots.txt:
Disallow: /admin blokkeert zowel /admin als /admin/page, maar ook /administrator. Gebruik /admin/ voor meer precisie.Combineer deze tester met onze Schema Generator en SERP Previewer om ervoor te zorgen dat zoekmachines zowel toegang hebben tot als uw inhoud aantrekkelijk kunnen weergeven.
Een robots.txt bestand is een platte tekstbestand geplaatst in de root van uw website (bijv. example.com/robots.txt) dat zoekmachine‑crawlers vertelt welke pagina's ze wel en niet mogen bezoeken. Het volgt het Robots Exclusion Protocol en is het eerste bestand dat crawlers controleren voordat ze uw site scannen.
Robots.txt ondersteunt twee wildcard‑tekens: het sterretje (*) staat voor elke reeks tekens, en het dollarteken ($) verankert de match aan het einde van de URL. Bijvoorbeeld, "Disallow: /*.pdf$" blokkeert alle URL's die eindigen op .pdf, terwijl "Disallow: /private*" elke URL‑pad blokkeert die begint met /private.
Dat hangt af van uw contentstrategie. Het blokkeren van AI‑crawlers voorkomt dat uw inhoud wordt gebruikt om taalmodellen te trainen. Veel uitgevers blokkeren deze crawlers om originele content te beschermen, terwijl anderen ze toestaan voor bredere zichtbaarheid. U kunt selectief AI‑crawlers blokkeren terwijl u traditionele zoekmachine‑crawlers blijft toestaan.
Niet volledig. Robots.txt voorkomt dat crawlers uw pagina lezen, maar Google kan de URL nog steeds indexeren als andere sites ernaar linken. Het resultaat verschijnt met een melding dat de beschrijving niet beschikbaar is. Om volledige indexering te voorkomen, gebruikt u een "noindex" meta‑tag of X‑Robots‑Tag‑header naast robots.txt.