Testa le regole del tuo robots.txt istantaneamente. Incolla il file, scegli un crawler e vedi esattamente quali URL sono consentiti o bloccati.
| Line | Directive | Value | Applies To | Status |
|---|
Vai oltre il test. OneStepToRank monitora continuamente come i motori di ricerca scansionano e indicizzano il tuo sito, avvisandoti dei cambiamenti di posizionamento in tutta la tua area di servizio.
Inizia oraUn file robots.txt è un semplice documento di testo posizionato nella radice del tuo sito web che comunica le istruzioni di scansione ai bot dei motori di ricerca. Quando un crawler come Googlebot visita il tuo sito, la prima cosa che controlla è https://yoursite.com/robots.txt. Il file indica al crawler quali pagine o directory può accedere e quali deve ignorare. Questo meccanismo è noto come Robots Exclusion Protocol, uno standard in uso dal 1994.
Sebbene robots.txt non imponga un controllo di accesso (un bot malintenzionato potrebbe ignorarlo), tutti i principali motori di ricerca e i crawler AI affidabili lo rispettano. Avere un robots.txt corretto è fondamentale per controllare ciò che viene indicizzato, proteggere directory sensibili, gestire il budget di scansione e impedire ai modelli AI di addestrarsi sui tuoi contenuti.
Questo strumento analizza il tuo robots.txt secondo le stesse regole seguite da Googlebot, includendo questi comportamenti chiave:
User-agent: *.*) corrisponde a qualsiasi sequenza di caratteri. Il simbolo dollaro ($) fissa un modello alla fine dell'URL. Per esempio, Disallow: /*.pdf$ blocca tutti gli URL che terminano con .pdf.User-agent, Disallow) non distinguono maiuscole/minuscole, ma i percorsi URL sono confrontati in modo sensibile al caso.Con l'ascesa dei grandi modelli linguistici, molti proprietari di siti desiderano impedire che i loro contenuti vengano usati come dati di addestramento. Le principali aziende AI hanno introdotto stringhe user-agent specifiche che puoi bloccare:
Puoi bloccare tutti i crawler AI mantenendo consentiti i crawler dei motori di ricerca per indicizzare il tuo sito. Usa questo tester per verificare che le tue regole funzionino come previsto, e il nostro Generatore robots.txt per creare un file formattato correttamente da zero.
Anche i webmaster esperti commettono questi errori con robots.txt:
Disallow: /admin blocca sia /admin sia /admin/page, ma anche /administrator. Usa /admin/ per maggiore precisione.Abbina questo tester al nostro Generatore Schema e al Anteprima SERP per garantire che i motori di ricerca possano sia accedere che visualizzare attraentemente i tuoi contenuti.
Un file robots.txt è un file di testo semplice posizionato nella radice del tuo sito web (es. example.com/robots.txt) che indica ai crawler dei motori di ricerca quali pagine possono e non possono accedere. Segue il Robots Exclusion Protocol ed è il primo file che i crawler controllano prima di scansionare il tuo sito.
Robots.txt supporta due caratteri wildcard: l'asterisco (*) corrisponde a qualsiasi sequenza di caratteri, e il simbolo dollaro ($) fissa la corrispondenza alla fine dell'URL. Per esempio, "Disallow: /*.pdf$" blocca tutti gli URL che terminano con .pdf, mentre "Disallow: /private*" blocca qualsiasi percorso URL che inizia con /private.
Dipende dalla tua strategia di contenuto. Bloccare i crawler AI impedisce che i tuoi contenuti vengano usati per addestrare modelli linguistici. Molti editori bloccano questi crawler per proteggere i contenuti originali, mentre altri li consentono per una maggiore visibilità. Puoi bloccare selettivamente i crawler AI mantenendo attivi i crawler tradizionali dei motori di ricerca.
Non completamente. Il robots.txt impedisce ai crawler di leggere la tua pagina, ma Google può comunque indicizzare l'URL se altri siti vi collegano. Il risultato apparirà con una nota che la descrizione non è disponibile. Per impedire completamente l'indicizzazione, usa un meta tag "noindex" o l'header X-Robots-Tag in aggiunta al robots.txt.