Pruebe sus reglas de robots.txt al instante. Pegue su archivo, elija un rastreador y vea exactamente qué URLs están permitidas o bloqueadas.
| Line | Directive | Value | Applies To | Status |
|---|
Vaya más allá de la prueba. OneStepToRank monitorea continuamente cómo los motores de búsqueda rastrean e indexan su sitio, alertándolo sobre cambios de posicionamiento en toda su área de servicio.
ComenzarUn archivo robots.txt es un documento de texto sencillo ubicado en la raíz de su sitio web que comunica instrucciones de rastreo a los bots de los motores de búsqueda. Cuando un rastreador como Googlebot visita su sitio, lo primero que verifica es https://yoursite.com/robots.txt. El archivo indica al rastreador qué páginas o directorios puede acceder y cuáles debe omitir. Este mecanismo se conoce como el Protocolo de Exclusión de Robots, un estándar que se utiliza desde 1994.
Aunque robots.txt no impone control de acceso (un bot malintencionado podría ignorarlo), todos los principales motores de búsqueda y rastreadores de IA reputados lo respetan. Tener su robots.txt correcto es esencial para controlar qué se indexa, proteger directorios sensibles, gestionar el presupuesto de rastreo y evitar que modelos de IA entrenen con su contenido.
Esta herramienta analiza su robots.txt según las mismas reglas que sigue Googlebot, incluyendo estos comportamientos clave:
User-agent: *.*) coincide con cualquier secuencia de caracteres. El signo de dólar ($) ancla un patrón al final de la URL. Por ejemplo, Disallow: /*.pdf$ bloquea todas las URLs que terminan en .pdf.User-agent, Disallow) no distinguen mayúsculas y minúsculas, pero las rutas de URL se comparan respetando mayúsculas.Con el auge de los grandes modelos de lenguaje, muchos propietarios de sitios desean evitar que su contenido se use como datos de entrenamiento. Las principales compañías de IA han introducido cadenas de user-agent específicas que puede bloquear:
Puede bloquear todos los rastreadores de IA mientras sigue permitiendo que los rastreadores de los motores de búsqueda indexen su sitio. Use este probador para verificar que sus reglas funcionen como se espera, y nuestro Generador de Robots.txt para crear un archivo con el formato correcto desde cero.
Incluso los webmasters experimentados cometen estos errores con robots.txt:
Disallow: /admin bloquea tanto /admin como /admin/page, pero también /administrator. Use /admin/ para ser más preciso.Combine este probador con nuestro Generador de Schema y Previsualizador SERP para asegurar que los motores de búsqueda puedan tanto acceder como mostrar atractivamente su contenido.
Un archivo robots.txt es un archivo de texto plano ubicado en la raíz de su sitio web (p. ej., example.com/robots.txt) que indica a los rastreadores de los motores de búsqueda qué páginas pueden y no pueden acceder. Sigue el Protocolo de Exclusión de Robots y es el primer archivo que los rastreadores revisan antes de escanear su sitio.
Robots.txt admite dos caracteres comodín: el asterisco (*) coincide con cualquier secuencia de caracteres, y el signo de dólar ($) ancla la coincidencia al final de la URL. Por ejemplo, "Disallow: /*.pdf$" bloquea todas las URLs que terminan en .pdf, mientras que "Disallow: /private*" bloquea cualquier ruta URL que comience con /private.
Depende de su estrategia de contenido. Bloquear los rastreadores de IA evita que su contenido se use para entrenar modelos de lenguaje. Muchos editores bloquean estos rastreadores para proteger contenido original, mientras que otros los permiten para mayor visibilidad. Puede bloquear selectivamente los rastreadores de IA y seguir permitiendo los rastreadores tradicionales de los motores de búsqueda.
No completamente. Robots.txt impide que los rastreadores lean su página, pero Google aún puede indexar la URL si otros sitios enlazan a ella. El resultado aparecerá con una nota de que la descripción no está disponible. Para evitar totalmente la indexación, use una etiqueta meta "noindex" o el encabezado HTTP X-Robots-Tag además de robots.txt.