免费 Robots.txt 测试工具 | OneStepToRank

robots.txt 测试工具

即时测试您的 robots.txt 规则。粘贴文件,选择爬虫,即可准确看到哪些 URL 被允许或阻止。

粘贴您的 robots.txt

1

Test Result

高亮显示的 robots.txt

规则细分

Line Directive Value Applies To Status

分析提示

监控您的Crawl Health

不仅仅是测试。OneStepToRank 持续监控搜索引擎如何爬取和索引您的站点,实时提醒您在整个服务区域的排名变化。

立即开始

什么是 robots.txt 文件?

一个 robots.txt 文件是放置在网站根目录的简单文本文档,用于向搜索引擎爬虫传达爬取指令。当爬虫(如 Googlebot)访问您的站点时,首先检查的是 https://yoursite.com/robots.txt。该文件告知爬虫哪些页面或目录可以访问,哪些应当跳过。这一机制称为 Robots Exclusion Protocol,自 1994 年起即被采用的标准。

虽然 robots.txt 并不强制访问控制(不良爬虫可能会忽略),但所有主流搜索引擎和可信的 AI 爬虫都会遵守。正确配置 robots.txt 对于控制被索引内容、保护敏感目录、管理爬取预算以及防止 AI 模型使用您的内容进行训练至关重要。

robots.txt 解析器的工作原理

此工具根据 Googlebot 所遵循的相同规则解析您的 robots.txt,包括以下关键行为:

  • User-agent 匹配:解析器首先查找针对您所选爬虫的特定节。如果未找到特定匹配,则回退到 User-agent: * 通配符节。
  • Allow 与 Disallow 的优先级:当 Allow 和 Disallow 规则同时匹配同一 URL 时,最具体的规则获胜(即匹配路径最长的规则)。如果长度相等,则 Allow 优先。
  • 通配符支持:星号 (*) 匹配任意字符序列。美元符号 ($) 将模式锚定到 URL 末尾。例如,Disallow: /*.pdf$ 会阻止所有以 .pdf 结尾的 URL。
  • 大小写敏感性:指令名称(User-agentDisallow)不区分大小写,但 URL 路径匹配时区分大小写。

在 robots.txt 中阻止 AI 爬虫

随着大语言模型的兴起,许多站点所有者希望阻止其内容被用于训练数据。主要 AI 公司已推出可阻止的特定用户代理字符串:

  • GPTBotChatGPT-User — OpenAI 用于模型训练和 ChatGPT 网页浏览的爬虫。
  • ClaudeBotClaude-Web — Anthropic 用于 Claude 训练数据和网页访问的爬虫。
  • CCBot — Common Crawl 的爬虫,其数据集用于训练众多开源模型。
  • Google-Extended — Google 为 Gemini AI 训练提供的选择退出选项(与 Googlebot 搜索索引分离)。
  • PerplexityBot — Perplexity AI 用于其搜索产品的爬虫。
  • Bytespider — 字节跳动的爬虫,关联 TikTok 的 AI 项目。

您可以阻止所有 AI 爬虫,同时仍允许搜索引擎爬虫索引您的站点。使用此测试工具验证规则是否按预期工作,并使用我们的 Robots.txt 生成器 从零构建格式正确的文件。

常见 robots.txt 错误

即使是有经验的站长也会在 robots.txt 中犯下以下错误:

  • 阻止 CSS 和 JS 文件:Google 需要渲染页面以理解其内容。阻止样式表或 JavaScript 会影响排名。
  • 使用 robots.txt 而非 noindex:robots.txt 阻止爬取,但不阻止索引。如果其他站点链接到被 robots.txt 阻止的页面,该页面仍可能出现在搜索结果中(无摘要)。
  • 忘记结尾斜杠Disallow: /admin 会阻止 /admin/admin/page,但也会阻止 /administrator。使用 /admin/ 可更精确。
  • 更改后未进行测试:一次拼写错误可能意外阻止整个站点。编辑后务必使用此类工具进行测试。

将此测试工具与我们的 Schema 生成器SERP 预览器 配合使用,以确保搜索引擎既能访问您的内容,又能以吸引人的方式展示。

常见问题

什么是 robots.txt 文件?

robots.txt 文件是放置在网站根目录的纯文本文件(例如 example.com/robots.txt),用于告知搜索引擎爬虫哪些页面可以访问、哪些不可以访问。它遵循 Robots Exclusion Protocol,是爬虫在扫描站点前首先检查的文件。

robots.txt 中的通配符如何工作?

robots.txt 支持两种通配符字符:星号 (*) 匹配任意字符序列,美元符号 ($) 将匹配锚定到 URL 末尾。例如,"Disallow: /*.pdf$" 会阻止所有以 .pdf 结尾的 URL,而 "Disallow: /private*" 会阻止所有以 /private 开头的 URL 路径。

我应该阻止像 GPTBot 和 ClaudeBot 这样的 AI 爬虫吗?

这取决于您的内容策略。阻止 AI 爬虫可防止您的内容被用于训练语言模型。许多出版商会阻止这些爬虫以保护原创内容,而有些则允许以获得更广的曝光。您可以在阻止 AI 爬虫的同时,仍然允许传统搜索引擎爬虫访问。

robots.txt 会阻止页面出现在 Google 中吗?

并非完全阻止。robots.txt 阻止爬虫读取页面内容,但如果其他站点链接到该 URL,Google 仍可能对其进行索引。结果会显示 URL,但说明不可用。若想彻底阻止索引,需要使用 "noindex" 元标签或 X-Robots-Tag HTTP 头,配合或替代 robots.txt。