Herramienta gratuita de prueba de Robots.txt

Q: ¿Impide robots.txt que las páginas aparezcan en Google?

No completamente. Robots.txt impide que los rastreadores accedan y lean el contenido de su página, pero Google aún puede indexar la URL si otros sitios enlazan a ella. El resultado indexado mostrará la URL con una nota de que la descripción no está disponible. Para evitar totalmente la indexación, use una etiqueta meta "noindex" o el encabezado HTTP X-Robots-Tag en lugar de o además de robots.txt.

¿Qué es un archivo robots.txt?

Un archivo robots.txt es un documento de texto sencillo ubicado en la raíz de su sitio web que comunica instrucciones de rastreo a los bots de los motores de búsqueda. Cuando un rastreador como Googlebot visita su sitio, lo primero que verifica es https://yoursite.com/robots.txt. El archivo indica al rastreador qué páginas o directorios puede acceder y cuáles debe omitir. Este mecanismo se conoce como el Protocolo de Exclusión de Robots, un estándar que se utiliza desde 1994.

Aunque robots.txt no impone control de acceso (un bot malintencionado podría ignorarlo), todos los principales motores de búsqueda y rastreadores de IA reputados lo respetan. Tener su robots.txt correcto es esencial para controlar qué se indexa, proteger directorios sensibles, gestionar el presupuesto de rastreo y evitar que modelos de IA entrenen con su contenido.

Cómo funciona el analizador de robots.txt

Esta herramienta analiza su robots.txt según las mismas reglas que sigue Googlebot, incluyendo estos comportamientos clave:

Coincidencia de User-agent: El analizador busca primero una sección dirigida al rastreador específico que seleccionó. Si no se encuentra una coincidencia específica, recurre a la sección comodín User-agent: *.
Precedencia de Allow vs. Disallow: Cuando tanto una regla Allow como una Disallow coinciden con la misma URL, la regla más específica gana (la que tiene la ruta coincidente más larga). Si tienen la misma longitud, prevalece Allow.
Soporte de comodines: El asterisco (*) coincide con cualquier secuencia de caracteres. El signo de dólar ($) ancla un patrón al final de la URL. Por ejemplo, Disallow: /*.pdf$ bloquea todas las URLs que terminan en .pdf.
Sensibilidad a mayúsculas: Los nombres de directivas (User-agent, Disallow) no distinguen mayúsculas y minúsculas, pero las rutas de URL se comparan respetando mayúsculas.

Bloquear rastreadores de IA en robots.txt

Con el auge de los grandes modelos de lenguaje, muchos propietarios de sitios desean evitar que su contenido se use como datos de entrenamiento. Las principales compañías de IA han introducido cadenas de user-agent específicas que puede bloquear:

GPTBot y ChatGPT-User — rastreadores de OpenAI para entrenamiento de modelos y navegación web de ChatGPT.
ClaudeBot y Claude-Web — rastreadores de Anthropic para los datos de entrenamiento de Claude y acceso web.
CCBot — bot de Common Crawl, cuyo conjunto de datos se usa para entrenar muchos modelos de código abierto.
Google-Extended — exclusión de Google para el entrenamiento de Gemini AI (separado del indexado de búsqueda de Googlebot).
PerplexityBot — rastreador de Perplexity AI para su producto de búsqueda.
Bytespider — rastreador de ByteDance, asociado a los esfuerzos de IA de TikTok.

Puede bloquear todos los rastreadores de IA mientras sigue permitiendo que los rastreadores de los motores de búsqueda indexen su sitio. Use este probador para verificar que sus reglas funcionen como se espera, y nuestro Generador de Robots.txt para crear un archivo con el formato correcto desde cero.

Errores comunes de robots.txt

Incluso los webmasters experimentados cometen estos errores con robots.txt:

Bloquear archivos CSS y JS: Google necesita renderizar sus páginas para comprender su contenido. Bloquear hojas de estilo o JavaScript puede perjudicar sus rankings.
Usar robots.txt en lugar de noindex: robots.txt impide el rastreo, no la indexación. Una página bloqueada por robots.txt aún puede aparecer en los resultados de búsqueda (sin fragmento) si otros sitios enlazan a ella.
Olvidar la barra diagonal final: Disallow: /admin bloquea tanto /admin como /admin/page, pero también /administrator. Use /admin/ para ser más preciso.
No probar después de los cambios: Un solo error tipográfico puede bloquear accidentalmente todo su sitio. Siempre pruebe con una herramienta como esta después de editar.

Combine este probador con nuestro Generador de Schema y Previsualizador SERP para asegurar que los motores de búsqueda puedan tanto acceder como mostrar atractivamente su contenido.

Preguntas frecuentes

¿Qué es un archivo robots.txt?

Un archivo robots.txt es un archivo de texto plano ubicado en la raíz de su sitio web (p. ej., example.com/robots.txt) que indica a los rastreadores de los motores de búsqueda qué páginas pueden y no pueden acceder. Sigue el Protocolo de Exclusión de Robots y es el primer archivo que los rastreadores revisan antes de escanear su sitio.

¿Cómo funcionan los comodines en robots.txt?

Robots.txt admite dos caracteres comodín: el asterisco (*) coincide con cualquier secuencia de caracteres, y el signo de dólar ($) ancla la coincidencia al final de la URL. Por ejemplo, "Disallow: /*.pdf$" bloquea todas las URLs que terminan en .pdf, mientras que "Disallow: /private*" bloquea cualquier ruta URL que comience con /private.

¿Debo bloquear los rastreadores de IA como GPTBot y ClaudeBot?

Depende de su estrategia de contenido. Bloquear los rastreadores de IA evita que su contenido se use para entrenar modelos de lenguaje. Muchos editores bloquean estos rastreadores para proteger contenido original, mientras que otros los permiten para mayor visibilidad. Puede bloquear selectivamente los rastreadores de IA y seguir permitiendo los rastreadores tradicionales de los motores de búsqueda.

¿Impide robots.txt que las páginas aparezcan en Google?

No completamente. Robots.txt impide que los rastreadores lean su página, pero Google aún puede indexar la URL si otros sitios enlazan a ella. El resultado aparecerá con una nota de que la descripción no está disponible. Para evitar totalmente la indexación, use una etiqueta meta "noindex" o el encabezado HTTP X-Robots-Tag además de robots.txt.

robots.txt Probador

Pegue su robots.txt

Test Result

robots.txt resaltado

Desglose de reglas

Consejos de análisis

Monitoree su Salud de rastreo

¿Qué es un archivo robots.txt?

Cómo funciona el analizador de robots.txt

Bloquear rastreadores de IA en robots.txt

Errores comunes de robots.txt

Preguntas frecuentes

¿Qué es un archivo robots.txt?

¿Cómo funcionan los comodines en robots.txt?

¿Debo bloquear los rastreadores de IA como GPTBot y ClaudeBot?

¿Impide robots.txt que las páginas aparezcan en Google?

robots.txt Probador

Pegue su robots.txt

Test Result

robots.txt resaltado

Desglose de reglas

Consejos de análisis

Monitoree su Salud de rastreo

¿Qué es un archivo robots.txt?

Cómo funciona el analizador de robots.txt

Bloquear rastreadores de IA en robots.txt

Errores comunes de robots.txt

Preguntas frecuentes

¿Qué es un archivo robots.txt?

¿Cómo funcionan los comodines en robots.txt?

¿Debo bloquear los rastreadores de IA como GPTBot y ClaudeBot?

¿Impide robots.txt que las páginas aparezcan en Google?

Herramientas relacionadas

Generador de Robots.txt

Probador de acceso de bots IA

Generador de sitemap

Probador de .htaccess