Gratis Robots.txt Tester Tool | OneStepToRank

robots.txt Tester

Test uw robots.txt regels direct. Plak uw bestand, kies een crawler, en zie precies welke URL's zijn toegestaan of geblokkeerd.

Plak uw robots.txt

1

Test Result

Gemarkeerde robots.txt

Regeloverzicht

Line Directive Value Applies To Status

Analysetips

Monitor uw Crawlgezondheid

Ga verder dan alleen testen. OneStepToRank monitort continu hoe zoekmachines uw site crawlen en indexeren, en waarschuwt u bij rangschikkingsveranderingen in uw gehele servicegebied.

Aan de slag

Wat is een robots.txt bestand?

Een robots.txt bestand is een eenvoudig tekstdocument geplaatst in de root van uw website dat crawl‑instructies communiceert aan zoekmachine‑bots. Wanneer een crawler zoals Googlebot uw site bezoekt, controleert deze eerst https://yoursite.com/robots.txt. Het bestand vertelt de crawler welke pagina's of directories toegankelijk zijn en welke overgeslagen moeten worden. Dit mechanisme staat bekend als het Robots Exclusion Protocol, een standaard die sinds 1994 wordt gebruikt.

Hoewel robots.txt geen toegangscontrole afdwingt (een misdragende bot kan het negeren), respecteren alle grote zoekmachines en gerenommeerde AI‑crawlers het. Het correct instellen van uw robots.txt is essentieel voor het bepalen wat geïndexeerd wordt, het beschermen van gevoelige directories, het beheren van crawlbudget en het voorkomen dat AI‑modellen uw inhoud gebruiken voor training.

Hoe de robots.txt parser werkt

Deze tool parseert uw robots.txt volgens dezelfde regels die Googlebot hanteert, inclusief de volgende belangrijke gedragingen:

  • User-agent matching: De parser zoekt eerst naar een sectie die gericht is op de specifieke crawler die u heeft geselecteerd. Als er geen specifieke match is, valt hij terug op de User-agent: * wildcard‑sectie.
  • Allow vs. Disallow prioriteit: Wanneer zowel een Allow‑ als een Disallow‑regel op dezelfde URL van toepassing zijn, wint de meest specifieke regel (de regel met het langste overeenkomende pad). Als ze even lang zijn, heeft Allow voorrang.
  • Wildcard‑ondersteuning: Het sterretje (*) staat voor elke reeks tekens. Het dollarteken ($) verankert een patroon aan het einde van de URL. Bijvoorbeeld, Disallow: /*.pdf$ blokkeert alle URL's die eindigen op .pdf.
  • Hoofdlettergevoeligheid: Richtlijnnamen (User-agent, Disallow) zijn niet hoofdlettergevoelig, maar URL‑paden worden hoofdlettergevoelig vergeleken.

AI‑crawlers blokkeren in robots.txt

Met de opkomst van grote taalmodellen willen veel site‑eigenaren voorkomen dat hun inhoud wordt gebruikt als trainingsdata. De grote AI‑bedrijven hebben specifieke user‑agent‑strings geïntroduceerd die u kunt blokkeren:

  • GPTBot en ChatGPT-User – crawlers van OpenAI voor modeltraining en ChatGPT‑webbrowsen.
  • ClaudeBot en Claude-Web – crawlers van Anthropic voor Claude‑trainingsdata en webtoegang.
  • CCBot – de bot van Common Crawl, waarvan de dataset wordt gebruikt om veel open‑source modellen te trainen.
  • Google-Extended – Google's opt‑out voor Gemini AI‑training (apart van Googlebot zoekindexering).
  • PerplexityBot – de crawler van Perplexity AI voor hun zoekproduct.
  • Bytespider – de crawler van ByteDance, gekoppeld aan de AI‑inspanningen van TikTok.

U kunt alle AI‑crawlers blokkeren terwijl u zoekmachine‑crawlers nog steeds toestaat uw site te indexeren. Gebruik deze tester om te verifiëren dat uw regels werken zoals bedoeld, en onze Robots.txt Generator om vanaf nul een correct geformatteerd bestand te maken.

Veelvoorkomende robots.txt fouten

Zelfs ervaren webmasters maken deze fouten met robots.txt:

  • CSS‑ en JS‑bestanden blokkeren: Google moet uw pagina's renderen om de inhoud te begrijpen. Het blokkeren van stylesheets of JavaScript kan uw rankings schaden.
  • Robots.txt gebruiken in plaats van noindex: Robots.txt voorkomt crawlen, niet indexeren. Een pagina die door robots.txt geblokkeerd is, kan nog steeds in zoekresultaten verschijnen (zonder snippet) als andere sites ernaar linken.
  • De afsluitende slash vergeten: Disallow: /admin blokkeert zowel /admin als /admin/page, maar ook /administrator. Gebruik /admin/ voor meer precisie.
  • Niet testen na wijzigingen: Een enkele typefout kan per ongeluk uw hele site blokkeren. Test altijd met een tool zoals deze na het bewerken.

Combineer deze tester met onze Schema Generator en SERP Previewer om ervoor te zorgen dat zoekmachines zowel toegang hebben tot als uw inhoud aantrekkelijk kunnen weergeven.

Veelgestelde vragen

Wat is een robots.txt bestand?

Een robots.txt bestand is een platte tekstbestand geplaatst in de root van uw website (bijv. example.com/robots.txt) dat zoekmachine‑crawlers vertelt welke pagina's ze wel en niet mogen bezoeken. Het volgt het Robots Exclusion Protocol en is het eerste bestand dat crawlers controleren voordat ze uw site scannen.

Hoe werken wildcards in robots.txt?

Robots.txt ondersteunt twee wildcard‑tekens: het sterretje (*) staat voor elke reeks tekens, en het dollarteken ($) verankert de match aan het einde van de URL. Bijvoorbeeld, "Disallow: /*.pdf$" blokkeert alle URL's die eindigen op .pdf, terwijl "Disallow: /private*" elke URL‑pad blokkeert die begint met /private.

Moet ik AI‑crawlers zoals GPTBot en ClaudeBot blokkeren?

Dat hangt af van uw contentstrategie. Het blokkeren van AI‑crawlers voorkomt dat uw inhoud wordt gebruikt om taalmodellen te trainen. Veel uitgevers blokkeren deze crawlers om originele content te beschermen, terwijl anderen ze toestaan voor bredere zichtbaarheid. U kunt selectief AI‑crawlers blokkeren terwijl u traditionele zoekmachine‑crawlers blijft toestaan.

Voorkomt robots.txt dat pagina's verschijnen in Google?

Niet volledig. Robots.txt voorkomt dat crawlers uw pagina lezen, maar Google kan de URL nog steeds indexeren als andere sites ernaar linken. Het resultaat verschijnt met een melding dat de beschrijving niet beschikbaar is. Om volledige indexering te voorkomen, gebruikt u een "noindex" meta‑tag of X‑Robots‑Tag‑header naast robots.txt.