Teste suas regras de robots.txt instantaneamente. Cole seu arquivo, escolha um rastreador e veja exatamente quais URLs são permitidas ou bloqueadas.
| Line | Directive | Value | Applies To | Status |
|---|
Vá além dos testes. OneStepToRank monitora continuamente como os motores de busca rastreiam e indexam seu site, alertando-o sobre mudanças de classificação em toda a sua área de atuação.
ComeçarUm arquivo robots.txt é um documento de texto simples colocado na raiz do seu site que comunica instruções de rastreamento aos bots dos motores de busca. Quando um rastreador como o Googlebot visita seu site, a primeira coisa que ele verifica é https://yoursite.com/robots.txt. O arquivo informa ao rastreador quais páginas ou diretórios ele pode acessar e quais deve ignorar. Esse mecanismo é conhecido como Robots Exclusion Protocol, um padrão em uso desde 1994.
Embora o robots.txt não imponha controle de acesso (um bot desobediente poderia ignorá-lo), todos os principais motores de busca e rastreadores de IA respeitam-no. Configurar corretamente o seu robots.txt é essencial para controlar o que é indexado, proteger diretórios sensíveis, gerenciar o orçamento de rastreamento e impedir que modelos de IA treinem com seu conteúdo.
Esta ferramenta analisa seu robots.txt de acordo com as mesmas regras que o Googlebot segue, incluindo os seguintes comportamentos principais:
User-agent: *.*) corresponde a qualquer sequência de caracteres. O cifrão ($) ancora um padrão ao final da URL. Por exemplo, Disallow: /*.pdf$ bloqueia todas as URLs que terminam em .pdf.User-agent, Disallow) não diferenciam maiúsculas de minúsculas, mas os caminhos de URL são comparados de forma sensível a maiúsculas.Com o crescimento dos grandes modelos de linguagem, muitos proprietários de sites desejam impedir que seu conteúdo seja usado como dados de treinamento. As principais empresas de IA introduziram strings de user-agent específicas que você pode bloquear:
Você pode bloquear todos os rastreadores de IA enquanto ainda permite que os rastreadores dos motores de busca indexem seu site. Use este testador para verificar se suas regras funcionam como esperado, e nosso Gerador de Robots.txt para criar um arquivo formatado corretamente do zero.
Mesmo webmasters experientes cometem esses erros com robots.txt:
Disallow: /admin bloqueia tanto /admin quanto /admin/page, mas também /administrator. Use /admin/ para ser mais preciso.Combine este testador com o nosso Gerador de Schema e Visualizador de SERP para garantir que os motores de busca possam acessar e exibir seu conteúdo de forma atraente.
Um arquivo robots.txt é um arquivo de texto simples colocado na raiz do seu site (por exemplo, example.com/robots.txt) que informa aos rastreadores dos motores de busca quais páginas eles podem e não podem acessar. Ele segue o Robots Exclusion Protocol e é o primeiro arquivo que os rastreadores verificam antes de analisar seu site.
O robots.txt suporta dois caracteres curinga: o asterisco (*) corresponde a qualquer sequência de caracteres, e o cifrão ($) ancora a correspondência ao final da URL. Por exemplo, "Disallow: /*.pdf$" bloqueia todas as URLs que terminam em .pdf, enquanto "Disallow: /private*" bloqueia qualquer caminho de URL que comece com /private.
Depende da sua estratégia de conteúdo. Bloquear rastreadores de IA impede que seu conteúdo seja usado para treinar modelos de linguagem. Muitos editores bloqueiam esses rastreadores para proteger o conteúdo original, enquanto outros os permitem para maior visibilidade. Você pode bloquear seletivamente os rastreadores de IA enquanto ainda permite os rastreadores tradicionais dos motores de busca.
Não totalmente. O robots.txt impede que os rastreadores leiam sua página, mas o Google ainda pode indexar a URL se outros sites a vincularem. O resultado aparecerá com uma nota de que a descrição não está disponível. Para impedir completamente a indexação, use a meta tag "noindex" ou o cabeçalho X-Robots-Tag além do robots.txt.