Générez un fichier robots.txt valide pour votre site. Ajoutez des règles user-agent, des sitemaps, des délais de crawl, et utilisez des préréglages rapides pour démarrer rapidement.
OneStepToRank suit vos classements locaux sur plusieurs points, surveille vos concurrents et vous envoie des alertes lorsque les positions changent. Voyez exactement où vous vous situez sur Google Maps.
CommencerUn fichier robots.txt est un fichier texte simple qui se trouve à la racine de votre site Web et indique aux robots des moteurs de recherche quelles parties de votre site ils peuvent ou ne peuvent pas accéder. Il suit le Robots Exclusion Protocol, une norme industrielle depuis 1994 que chaque grand moteur de recherche — Google, Bing, Yahoo, Yandex et d’autres — respecte. Lorsqu’un robot arrive sur votre site, la première chose qu’il fait est de vérifier yourdomain.com/robots.txt pour comprendre vos préférences de crawl avant de visiter toute autre page.
Le fichier utilise des directives simples pour communiquer avec les bots. User-agent indique à quel robot les règles s’appliquent (utilisez * pour tous les bots). Disallow bloque des chemins spécifiques pour qu’ils ne soient pas crawlés. Allow autorise l’accès aux chemins à l’intérieur d’un répertoire bloqué. Sitemap indique aux robots où se trouve votre sitemap XML afin qu’ils puissent découvrir toutes vos pages efficacement. Certains robots prennent également en charge Crawl-delay, qui indique aux bots d’attendre un certain nombre de secondes entre les requêtes pour réduire la charge du serveur.
Une idée reçue courante est que le robots.txt empêche les pages d’être indexées dans les résultats de recherche. Ce n’est pas le cas. Interdire un chemin empêche les robots de visiter cette URL, mais si d’autres sites y font un lien, Google peut toujours indexer l’URL en se basant sur des signaux externes comme le texte d’ancre. Pour bloquer réellement une page afin qu’elle n’apparaisse pas dans les résultats de recherche, vous avez besoin d’une balise meta noindex ou d’un en‑tête HTTP X-Robots-Tag. Considérez le robots.txt comme contrôlant l’accès au crawl, pas la visibilité dans l’index.
Votre fichier robots.txt doit toujours être placé à la racine de votre domaine — accessible à https://yourdomain.com/robots.txt. Il est spécifique au protocole et au sous‑domaine : les règles pour https://example.com ne s’appliquent pas à https://www.example.com ou http://example.com. Chaque variante nécessite son propre fichier. Pour la plupart des sites, inclure une directive Sitemap pointant vers votre sitemap XML est la chose la plus précieuse que vous puissiez ajouter, car cela aide les robots à découvrir votre contenu plus rapidement et plus complètement. Utilisez ce générateur avec notre Générateur de balises Meta et Générateur de Schema pour une configuration SEO technique complète.
Un fichier robots.txt est un fichier texte placé à la racine de votre site Web qui indique aux robots des moteurs de recherche quelles pages ou sections ils sont autorisés ou non à explorer. Il suit le Robots Exclusion Protocol, une norme reconnue par tous les grands moteurs de recherche. Le fichier utilise des directives telles que User-agent, Disallow, Allow et Sitemap pour contrôler le comportement des robots et gérer leur interaction avec votre site.
Non. Une directive Disallow dans le robots.txt indique aux robots de ne pas explorer une page, mais cela n’empêche pas la page d’apparaître dans les résultats de recherche. Si d’autres sites pointent vers une URL bloquée, Google peut toujours l’indexer à partir d’informations externes comme le texte d’ancre. Pour empêcher réellement l’indexation, utilisez une balise meta noindex ou un en‑tête HTTP X-Robots-Tag. Le robots.txt contrôle l’accès au crawl, pas le comportement d’indexation.
Votre fichier robots.txt doit être placé à la racine de votre site afin d’être accessible via yourdomain.com/robots.txt. Le fichier est spécifique au protocole et au sous‑domaine : https://example.com/robots.txt ne contrôle que le crawl de https://example.com, pas de https://www.example.com ou http://example.com. Si vous utilisez plusieurs sous‑domaines, chacun nécessite son propre fichier robots.txt.
Les directives les plus couramment utilisées sont : User-agent (spécifie le robot auquel les règles s’appliquent, utilisez * pour tous), Disallow (bloque un chemin du crawl), Allow (autorise le crawl d’un chemin à l’intérieur d’un répertoire bloqué), Sitemap (indique le lien vers votre sitemap XML) et Crawl-delay (demande aux robots d’attendre un nombre de secondes entre les requêtes, pris en charge par Bing et Yandex mais ignoré par Google). Ces directives sont sensibles à la casse et doivent respecter la syntaxe exacte.