Genera un archivo robots.txt válido para tu sitio web. Añade reglas de user-agent, sitemaps, retrasos de rastreo y usa presets rápidos para comenzar rápido.
OneStepToRank rastrea tus rankings de búsqueda local en varios puntos, monitoriza a la competencia y te envía alertas cuando cambian las posiciones. Ve exactamente dónde te posicionas en Google Maps.
ComenzarUn archivo robots.txt es un archivo de texto plano que se encuentra en la raíz de tu sitio web y le indica a los crawlers de los motores de búsqueda qué partes de tu sitio pueden y no pueden acceder. Sigue el Robots Exclusion Protocol, un estándar de la industria desde 1994 que todos los principales motores de búsqueda — Google, Bing, Yahoo, Yandex y otros — respetan. Cuando un crawler llega a tu sitio, lo primero que hace es buscar yourdomain.com/robots.txt para entender tus preferencias de rastreo antes de visitar cualquier otra página.
El archivo usa directivas simples para comunicarse con los bots. User-agent especifica a qué crawler se aplican las reglas (usa * para todos los bots). Disallow bloquea rutas específicas para que no sean rastreadas. Allow permite el acceso a rutas dentro de un directorio bloqueado. Sitemap indica a los crawlers la ubicación de tu sitemap XML para que descubran todas tus páginas de manera eficiente. Algunos crawlers también admiten Crawl-delay, que indica a los bots esperar varios segundos entre solicitudes para reducir la carga del servidor.
Una idea errónea común es que robots.txt impide que las páginas se indexen en los resultados de búsqueda. No lo hace. Bloquear una ruta evita que los crawlers visiten esa URL, pero si otros sitios enlazan a ella, Google aún puede indexarla basándose en señales externas como el texto ancla. Para bloquear realmente una página de aparecer en los resultados de búsqueda, necesitas una etiqueta meta noindex o un encabezado HTTP X-Robots-Tag. Piensa en robots.txt como un controlador del acceso de rastreo, no de la visibilidad de indexación.
Tu archivo robots.txt siempre debe ubicarse en el directorio raíz de tu dominio — accesible en https://yourdomain.com/robots.txt. Es específico al protocolo y subdominio: las reglas para https://example.com no se aplican a https://www.example.com o http://example.com. Cada variante necesita su propio archivo. Para la mayoría de los sitios, incluir una directiva Sitemap que apunte a tu sitemap XML es lo más valioso que puedes añadir, ya que ayuda a los crawlers a descubrir tu contenido más rápido y de forma más completa. Usa este generador junto a nuestro Generador de Meta Tags y Generador de Schema para una configuración completa de SEO técnico.
Un archivo robots.txt es un archivo de texto plano ubicado en la raíz de tu sitio web que indica a los crawlers de los motores de búsqueda qué páginas o secciones pueden o no pueden rastrear. Sigue el Robots Exclusion Protocol, un estándar reconocido por todos los principales motores de búsqueda. El archivo utiliza directivas como User-agent, Disallow, Allow y Sitemap para controlar el comportamiento de los crawlers y gestionar cómo los bots interactúan con tu sitio.
No. Una directiva Disallow en robots.txt indica a los crawlers que no rastreen una página, pero no impide que esa página aparezca en los resultados de búsqueda. Si otros sitios enlazan a una URL bloqueada, Google aún puede indexarla usando información externa como el texto ancla. Para impedir realmente la indexación de una página, usa una etiqueta meta noindex o un encabezado HTTP X-Robots-Tag. Robots.txt controla el acceso de rastreo, no el comportamiento de indexación.
Tu archivo robots.txt debe colocarse en el directorio raíz de tu sitio web para que sea accesible en tudominio.com/robots.txt. El archivo es específico al protocolo y subdominio: https://example.com/robots.txt solo controla el rastreo para https://example.com, no para https://www.example.com o http://example.com. Si utilizas varios subdominios, cada uno necesita su propio archivo robots.txt.
Las directivas más usadas son User-agent (qué crawler se aplica, usa * para todos), Disallow (bloquea una ruta del rastreo), Allow (permite rastrear una ruta dentro de un directorio bloqueado), Sitemap (indica a los crawlers la URL de tu sitemap XML) y Crawl-delay (pide a los crawlers esperar un número de segundos entre solicitudes, soportado por Bing y Yandex pero ignorado por Google). Estas directivas deben seguir la sintaxis exacta y son sensibles a mayúsculas.