Genera un file robots.txt valido per il tuo sito web. Aggiungi regole user-agent, sitemap, ritardi di scansione e utilizza preset rapidi per iniziare subito.
OneStepToRank traccia le tue classifiche di ricerca locale su più punti, monitora i concorrenti e ti invia avvisi quando le posizioni cambiano. Scopri esattamente dove ti posizioni su Google Maps.
Inizia oraUn file robots.txt è un file di testo semplice che risiede nella radice del tuo sito web e indica ai crawler dei motori di ricerca quali parti del sito possono o non possono accedere. Segue il Robots Exclusion Protocol, uno standard di settore dal 1994 che tutti i principali motori di ricerca — Google, Bing, Yahoo, Yandex e altri — rispettano. Quando un crawler arriva sul tuo sito, la prima cosa che fa è controllare yourdomain.com/robots.txt per capire le tue preferenze di scansione prima di visitare qualsiasi altra pagina.
Il file utilizza direttive semplici per comunicare con i bot. User-agent specifica a quale crawler si applicano le regole (usa * per tutti i bot). Disallow blocca percorsi specifici dalla scansione. Allow consente l'accesso a percorsi all'interno di una directory altrimenti disallowed. Sitemap indica ai crawler la tua sitemap XML così possono scoprire tutte le pagine in modo efficiente. Alcuni crawler supportano anche Crawl-delay, che indica ai bot di attendere un certo numero di secondi tra le richieste per ridurre il carico del server.
Un'idea sbagliata comune è che robots.txt impedisca alle pagine di essere indicizzate nei risultati di ricerca. Non è così. Il blocco di un percorso impedisce ai crawler di visitare quell'URL, ma se altri siti vi collegano, Google può comunque indicizzare l'URL basandosi su segnali esterni come il testo di ancoraggio. Per bloccare davvero una pagina dalla comparsa nei risultati di ricerca, serve un meta tag noindex o un'intestazione HTTP X-Robots-Tag. Considera robots.txt come un controllo dell'accesso di scansione, non della visibilità dell'indice.
Il tuo file robots.txt deve sempre essere posizionato nella directory radice del tuo dominio — accessibile all'indirizzo https://yourdomain.com/robots.txt. È specifico per protocollo e sottodominio: le regole per https://example.com non si applicano a https://www.example.com o http://example.com. Ogni variante necessita del proprio file. Per la maggior parte dei siti, includere una direttiva Sitemap che punta alla tua sitemap XML è la cosa più preziosa che puoi aggiungere, poiché aiuta i crawler a scoprire i contenuti più rapidamente e completamente. Usa questo generatore insieme al nostro Generatore di Meta Tag e al Generatore di Schema per una configurazione SEO tecnica completa.
Un file robots.txt è un file di testo semplice posizionato nella radice del tuo sito web che indica ai crawler dei motori di ricerca quali pagine o sezioni possono o non possono essere scansionate. Segue il Robots Exclusion Protocol, uno standard riconosciuto da tutti i principali motori di ricerca. Il file utilizza direttive come User-agent, Disallow, Allow e Sitemap per controllare il comportamento dei crawler e gestire l'interazione dei bot con il tuo sito.
No. Una direttiva Disallow in robots.txt indica ai crawler di non scansionare una pagina, ma non impedisce che la pagina compaia nei risultati di ricerca. Se altri siti collegano un URL disallowed, Google può comunque indicizzarlo utilizzando informazioni esterne come il testo di ancoraggio. Per impedire davvero l'indicizzazione di una pagina, usa un meta tag noindex o un'intestazione HTTP X-Robots-Tag. Robots.txt controlla l'accesso di scansione, non il comportamento di indicizzazione.
Il tuo file robots.txt deve essere posizionato nella directory radice del tuo sito web in modo che sia accessibile all'indirizzo yourdomain.com/robots.txt. Il file è specifico per protocollo e sottodominio: https://example.com/robots.txt controlla la scansione solo per https://example.com, non per https://www.example.com o http://example.com. Se utilizzi più sottodomini, ciascuno necessita del proprio file robots.txt.
Le direttive più comunemente usate sono User-agent (a quale crawler si applicano le regole, usa * per tutti), Disallow (blocca un percorso dalla scansione), Allow (consente la scansione all'interno di una directory altrimenti disallowed), Sitemap (indica ai crawler la tua sitemap XML) e Crawl-delay (richiede ai crawler di attendere un certo numero di secondi tra le richieste, supportato da Bing e Yandex ma ignorato da Google). Queste direttive devono rispettare una sintassi esatta e sono sensibili al maiuscolo/minuscolo.