Testez instantanément vos règles robots.txt. Collez votre fichier, choisissez un robot, et voyez exactement quelles URL sont autorisées ou bloquées.
| Line | Directive | Value | Applies To | Status |
|---|
Allez au-delà du test. OneStepToRank surveille en continu comment les moteurs de recherche explorent et indexent votre site, vous alertant des changements de classement dans toute votre zone de service.
CommencerUn fichier robots.txt est un simple document texte placé à la racine de votre site web qui communique les instructions d'exploration aux bots des moteurs de recherche. Lorsqu'un robot comme Googlebot visite votre site, la première chose qu'il vérifie est https://yoursite.com/robots.txt. Le fichier indique au robot quelles pages ou répertoires il peut accéder et lesquels il doit ignorer. Ce mécanisme est connu sous le nom de Robots Exclusion Protocol, une norme utilisée depuis 1994.
Bien que le robots.txt n'impose pas de contrôle d'accès (un bot malveillant pourrait l'ignorer), tous les principaux moteurs de recherche et les robots IA réputés le respectent. Avoir un robots.txt correct est essentiel pour contrôler ce qui est indexé, protéger les répertoires sensibles, gérer le budget d'exploration et empêcher les modèles d'IA d'entraîner sur votre contenu.
Cet outil analyse votre robots.txt selon les mêmes règles que suit Googlebot, incluant ces comportements clés :
User-agent: *.*) correspond à n'importe quelle séquence de caractères. Le signe dollar ($) ancre un motif à la fin de l'URL. Par exemple, Disallow: /*.pdf$ bloque toutes les URL se terminant par .pdf.User-agent, Disallow) ne sont pas sensibles à la casse, mais les chemins d'URL le sont.Avec l'essor des grands modèles de langage, de nombreux propriétaires de sites souhaitent empêcher que leur contenu soit utilisé comme données d'entraînement. Les principales entreprises d'IA ont introduit des chaînes user-agent spécifiques que vous pouvez bloquer :
Vous pouvez bloquer tous les robots IA tout en permettant aux robots des moteurs de recherche d'indexer votre site. Utilisez ce testeur pour vérifier que vos règles fonctionnent comme prévu, et notre Générateur de Robots.txt pour créer un fichier correctement formaté à partir de zéro.
Même les webmasters expérimentés commettent ces erreurs avec le robots.txt :
Disallow: /admin bloque à la fois /admin et /admin/page, mais aussi /administrator. Utilisez /admin/ pour plus de précision.Associez ce testeur à notre Générateur de Schéma et Aperçu SERP pour garantir que les moteurs de recherche puissent à la fois accéder et afficher votre contenu de manière attrayante.
Un fichier robots.txt est un fichier texte simple placé à la racine de votre site web (par ex. example.com/robots.txt) qui indique aux robots des moteurs de recherche quelles pages ils peuvent ou ne peuvent pas accéder. Il suit le Robots Exclusion Protocol et est le premier fichier que les robots vérifient avant d'examiner votre site.
Robots.txt prend en charge deux caractères génériques : l'astérisque (*) correspond à n'importe quelle séquence de caractères, et le signe dollar ($) ancre la correspondance à la fin de l'URL. Par exemple, "Disallow: /*.pdf$" bloque toutes les URL se terminant par .pdf, tandis que "Disallow: /private*" bloque tout chemin d'URL commençant par /private.
Cela dépend de votre stratégie de contenu. Bloquer les robots IA empêche votre contenu d'être utilisé pour entraîner des modèles de langage. De nombreux éditeurs bloquent ces robots pour protéger le contenu original, tandis que d'autres les autorisent pour une visibilité plus large. Vous pouvez bloquer sélectivement les robots IA tout en laissant les robots traditionnels des moteurs de recherche accéder à votre site.
Pas complètement. Le robots.txt empêche les robots de lire votre page, mais Google peut toujours indexer l'URL si d'autres sites y font un lien. Le résultat apparaîtra avec une mention indiquant que la description est indisponible. Pour empêcher totalement l'indexation, utilisez une balise méta "noindex" ou l'en-tête HTTP X-Robots-Tag en plus du robots.txt.