Ferramenta Gratuita de Teste de Robots.txt | OneStepToRank

robots.txt Testador

Teste suas regras de robots.txt instantaneamente. Cole seu arquivo, escolha um rastreador e veja exatamente quais URLs são permitidas ou bloqueadas.

Cole seu robots.txt

1

Test Result

robots.txt Destacado

Detalhamento das Regras

Line Directive Value Applies To Status

Dicas de Análise

Monitore seu Saúde de Rastreamento

Vá além dos testes. OneStepToRank monitora continuamente como os motores de busca rastreiam e indexam seu site, alertando-o sobre mudanças de classificação em toda a sua área de atuação.

Começar

O que é um arquivo robots.txt?

Um arquivo robots.txt é um documento de texto simples colocado na raiz do seu site que comunica instruções de rastreamento aos bots dos motores de busca. Quando um rastreador como o Googlebot visita seu site, a primeira coisa que ele verifica é https://yoursite.com/robots.txt. O arquivo informa ao rastreador quais páginas ou diretórios ele pode acessar e quais deve ignorar. Esse mecanismo é conhecido como Robots Exclusion Protocol, um padrão em uso desde 1994.

Embora o robots.txt não imponha controle de acesso (um bot desobediente poderia ignorá-lo), todos os principais motores de busca e rastreadores de IA respeitam-no. Configurar corretamente o seu robots.txt é essencial para controlar o que é indexado, proteger diretórios sensíveis, gerenciar o orçamento de rastreamento e impedir que modelos de IA treinem com seu conteúdo.

Como o Analisador de robots.txt Funciona

Esta ferramenta analisa seu robots.txt de acordo com as mesmas regras que o Googlebot segue, incluindo os seguintes comportamentos principais:

  • Correspondência de User-agent: O analisador primeiro procura uma seção direcionada ao rastreador específico que você selecionou. Se nenhuma correspondência específica for encontrada, ele recorre à seção curinga User-agent: *.
  • Precedência entre Allow e Disallow: Quando tanto uma regra Allow quanto uma regra Disallow correspondem à mesma URL, a regra mais específica prevalece (aquela com o caminho de correspondência mais longo). Se tiverem o mesmo comprimento, Allow tem precedência.
  • Suporte a curingas: O asterisco (*) corresponde a qualquer sequência de caracteres. O cifrão ($) ancora um padrão ao final da URL. Por exemplo, Disallow: /*.pdf$ bloqueia todas as URLs que terminam em .pdf.
  • Sensibilidade a maiúsculas/minúsculas: Nomes de diretivas (User-agent, Disallow) não diferenciam maiúsculas de minúsculas, mas os caminhos de URL são comparados de forma sensível a maiúsculas.

Bloqueando Rastreadores de IA no robots.txt

Com o crescimento dos grandes modelos de linguagem, muitos proprietários de sites desejam impedir que seu conteúdo seja usado como dados de treinamento. As principais empresas de IA introduziram strings de user-agent específicas que você pode bloquear:

  • GPTBot e ChatGPT-User — rastreadores da OpenAI para treinamento de modelo e navegação web do ChatGPT.
  • ClaudeBot e Claude-Web — rastreadores da Anthropic para dados de treinamento do Claude e acesso web.
  • CCBot — bot da Common Crawl, cujo conjunto de dados é usado para treinar muitos modelos de código aberto.
  • Google-Extended — opção de exclusão da Google para treinamento de IA Gemini (separado da indexação de busca do Googlebot).
  • PerplexityBot — rastreador da Perplexity AI para seu produto de busca.
  • Bytespider — rastreador da ByteDance, associado aos esforços de IA do TikTok.

Você pode bloquear todos os rastreadores de IA enquanto ainda permite que os rastreadores dos motores de busca indexem seu site. Use este testador para verificar se suas regras funcionam como esperado, e nosso Gerador de Robots.txt para criar um arquivo formatado corretamente do zero.

Erros Comuns em robots.txt

Mesmo webmasters experientes cometem esses erros com robots.txt:

  • Bloquear arquivos CSS e JS: O Google precisa renderizar suas páginas para entender seu conteúdo. Bloquear folhas de estilo ou JavaScript pode prejudicar seu ranking.
  • Usar robots.txt em vez de noindex: O robots.txt impede o rastreamento, não a indexação. Uma página bloqueada pelo robots.txt ainda pode aparecer nos resultados de busca (sem snippet) se outros sites vincularem a ela.
  • Esquecer a barra final: Disallow: /admin bloqueia tanto /admin quanto /admin/page, mas também /administrator. Use /admin/ para ser mais preciso.
  • Não testar após alterações: Um único erro de digitação pode bloquear acidentalmente todo o seu site. Sempre teste com uma ferramenta como esta após editar.

Combine este testador com o nosso Gerador de Schema e Visualizador de SERP para garantir que os motores de busca possam acessar e exibir seu conteúdo de forma atraente.

Perguntas Frequentes

O que é um arquivo robots.txt?

Um arquivo robots.txt é um arquivo de texto simples colocado na raiz do seu site (por exemplo, example.com/robots.txt) que informa aos rastreadores dos motores de busca quais páginas eles podem e não podem acessar. Ele segue o Robots Exclusion Protocol e é o primeiro arquivo que os rastreadores verificam antes de analisar seu site.

Como funcionam os curingas no robots.txt?

O robots.txt suporta dois caracteres curinga: o asterisco (*) corresponde a qualquer sequência de caracteres, e o cifrão ($) ancora a correspondência ao final da URL. Por exemplo, "Disallow: /*.pdf$" bloqueia todas as URLs que terminam em .pdf, enquanto "Disallow: /private*" bloqueia qualquer caminho de URL que comece com /private.

Devo bloquear rastreadores de IA como GPTBot e ClaudeBot?

Depende da sua estratégia de conteúdo. Bloquear rastreadores de IA impede que seu conteúdo seja usado para treinar modelos de linguagem. Muitos editores bloqueiam esses rastreadores para proteger o conteúdo original, enquanto outros os permitem para maior visibilidade. Você pode bloquear seletivamente os rastreadores de IA enquanto ainda permite os rastreadores tradicionais dos motores de busca.

O robots.txt impede que páginas apareçam no Google?

Não totalmente. O robots.txt impede que os rastreadores leiam sua página, mas o Google ainda pode indexar a URL se outros sites a vincularem. O resultado aparecerá com uma nota de que a descrição não está disponível. Para impedir completamente a indexação, use a meta tag "noindex" ou o cabeçalho X-Robots-Tag além do robots.txt.