Strumento gratuito per testare robots.txt | OneStepToRank

Tester robots.txt

Testa le regole del tuo robots.txt istantaneamente. Incolla il file, scegli un crawler e vedi esattamente quali URL sono consentiti o bloccati.

Incolla il tuo robots.txt

1

Test Result

robots.txt evidenziato

Analisi delle regole

Line Directive Value Applies To Status

Consigli di analisi

Monitora il Salute della scansione

Vai oltre il test. OneStepToRank monitora continuamente come i motori di ricerca scansionano e indicizzano il tuo sito, avvisandoti dei cambiamenti di posizionamento in tutta la tua area di servizio.

Inizia ora

Che cos'è un file robots.txt?

Un file robots.txt è un semplice documento di testo posizionato nella radice del tuo sito web che comunica le istruzioni di scansione ai bot dei motori di ricerca. Quando un crawler come Googlebot visita il tuo sito, la prima cosa che controlla è https://yoursite.com/robots.txt. Il file indica al crawler quali pagine o directory può accedere e quali deve ignorare. Questo meccanismo è noto come Robots Exclusion Protocol, uno standard in uso dal 1994.

Sebbene robots.txt non imponga un controllo di accesso (un bot malintenzionato potrebbe ignorarlo), tutti i principali motori di ricerca e i crawler AI affidabili lo rispettano. Avere un robots.txt corretto è fondamentale per controllare ciò che viene indicizzato, proteggere directory sensibili, gestire il budget di scansione e impedire ai modelli AI di addestrarsi sui tuoi contenuti.

Come funziona il parser robots.txt

Questo strumento analizza il tuo robots.txt secondo le stesse regole seguite da Googlebot, includendo questi comportamenti chiave:

  • Correlazione User-agent: il parser cerca prima una sezione destinata al crawler specifico selezionato. Se non trova una corrispondenza specifica, ricade nella sezione wildcard User-agent: *.
  • Priorità tra Allow e Disallow: quando sia una regola Allow sia una Disallow corrispondono allo stesso URL, vince la regola più specifica (quella con il percorso più lungo). Se hanno la stessa lunghezza, prevale Allow.
  • Supporto wildcard: l'asterisco (*) corrisponde a qualsiasi sequenza di caratteri. Il simbolo dollaro ($) fissa un modello alla fine dell'URL. Per esempio, Disallow: /*.pdf$ blocca tutti gli URL che terminano con .pdf.
  • Sensibilità al maiuscolo/minuscolo: i nomi delle direttive (User-agent, Disallow) non distinguono maiuscole/minuscole, ma i percorsi URL sono confrontati in modo sensibile al caso.

Bloccare i crawler AI in robots.txt

Con l'ascesa dei grandi modelli linguistici, molti proprietari di siti desiderano impedire che i loro contenuti vengano usati come dati di addestramento. Le principali aziende AI hanno introdotto stringhe user-agent specifiche che puoi bloccare:

  • GPTBot e ChatGPT-User – crawler di OpenAI per l'addestramento dei modelli e la navigazione web di ChatGPT.
  • ClaudeBot e Claude-Web – crawler di Anthropic per i dati di addestramento di Claude e l'accesso web.
  • CCBot – bot di Common Crawl, il cui dataset è usato per addestrare molti modelli open-source.
  • Google-Extended – opzione di Google per l'opt-out dall'addestramento AI Gemini (separata dall'indicizzazione di Googlebot).
  • PerplexityBot – crawler di Perplexity AI per il suo prodotto di ricerca.
  • Bytespider – crawler di ByteDance, associato agli sforzi AI di TikTok.

Puoi bloccare tutti i crawler AI mantenendo consentiti i crawler dei motori di ricerca per indicizzare il tuo sito. Usa questo tester per verificare che le tue regole funzionino come previsto, e il nostro Generatore robots.txt per creare un file formattato correttamente da zero.

Errori comuni in robots.txt

Anche i webmaster esperti commettono questi errori con robots.txt:

  • Bloccare file CSS e JS: Google deve renderizzare le tue pagine per comprenderne il contenuto. Bloccare fogli di stile o JavaScript può danneggiare il tuo posizionamento.
  • Usare robots.txt invece di noindex: robots.txt impedisce la scansione, non l'indicizzazione. Una pagina bloccata da robots.txt può comunque apparire nei risultati di ricerca (senza snippet) se altri siti vi collegano.
  • Dimenticare lo slash finale: Disallow: /admin blocca sia /admin sia /admin/page, ma anche /administrator. Usa /admin/ per maggiore precisione.
  • Non testare dopo le modifiche: un singolo errore di battitura può bloccare accidentalmente l'intero sito. Testa sempre con uno strumento come questo dopo aver modificato.

Abbina questo tester al nostro Generatore Schema e al Anteprima SERP per garantire che i motori di ricerca possano sia accedere che visualizzare attraentemente i tuoi contenuti.

Domande frequenti

Che cos'è un file robots.txt?

Un file robots.txt è un file di testo semplice posizionato nella radice del tuo sito web (es. example.com/robots.txt) che indica ai crawler dei motori di ricerca quali pagine possono e non possono accedere. Segue il Robots Exclusion Protocol ed è il primo file che i crawler controllano prima di scansionare il tuo sito.

Come funzionano i wildcard in robots.txt?

Robots.txt supporta due caratteri wildcard: l'asterisco (*) corrisponde a qualsiasi sequenza di caratteri, e il simbolo dollaro ($) fissa la corrispondenza alla fine dell'URL. Per esempio, "Disallow: /*.pdf$" blocca tutti gli URL che terminano con .pdf, mentre "Disallow: /private*" blocca qualsiasi percorso URL che inizia con /private.

Devo bloccare i crawler AI come GPTBot e ClaudeBot?

Dipende dalla tua strategia di contenuto. Bloccare i crawler AI impedisce che i tuoi contenuti vengano usati per addestrare modelli linguistici. Molti editori bloccano questi crawler per proteggere i contenuti originali, mentre altri li consentono per una maggiore visibilità. Puoi bloccare selettivamente i crawler AI mantenendo attivi i crawler tradizionali dei motori di ricerca.

Il robots.txt impedisce che le pagine compaiano su Google?

Non completamente. Il robots.txt impedisce ai crawler di leggere la tua pagina, ma Google può comunque indicizzare l'URL se altri siti vi collegano. Il risultato apparirà con una nota che la descrizione non è disponibile. Per impedire completamente l'indicizzazione, usa un meta tag "noindex" o l'header X-Robots-Tag in aggiunta al robots.txt.