免费 Robots.txt 测试工具

Q: robots.txt 中的通配符如何工作？

robots.txt 支持两种通配符字符：星号 (*) 匹配 URL 路径中的任意字符序列，美元符号 ($) 将匹配锚定到 URL 末尾。例如，'Disallow: /*.pdf$' 会阻止所有以 .pdf 结尾的 URL，而 'Disallow: /private*' 会阻止任何以 /private 开头的 URL。

Q: 我应该阻止像 GPTBot 和 ClaudeBot 这样的 AI 爬虫吗？

这取决于您的内容策略。阻止 AI 爬虫（GPTBot、ClaudeBot、CCBot、Google-Extended）可防止您的内容被用于训练大型语言模型。许多出版商选择阻止这些爬虫以保护原创内容，而其他人则允许以获得更广的可见性。您可以在阻止 AI 爬虫的同时，仍允许 Googlebot 等搜索引擎爬虫。

Q: robots.txt 会阻止页面出现在 Google 中吗？

并非完全阻止。robots.txt 阻止爬虫访问和读取页面内容，但如果其他站点链接到该 URL，Google 仍可能对其进行索引。索引结果会显示 URL 并标注说明不可用。若要彻底阻止索引，需要使用 "noindex" 元标签或 X-Robots-Tag HTTP 头，代替或配合 robots.txt 使用。

什么是 robots.txt 文件？

一个 robots.txt 文件是放置在网站根目录的简单文本文档，用于向搜索引擎爬虫传达爬取指令。当爬虫（如 Googlebot）访问您的站点时，首先检查的是 https://yoursite.com/robots.txt。该文件告知爬虫哪些页面或目录可以访问，哪些应当跳过。这一机制称为 Robots Exclusion Protocol，自 1994 年起即被采用的标准。

虽然 robots.txt 并不强制访问控制（不良爬虫可能会忽略），但所有主流搜索引擎和可信的 AI 爬虫都会遵守。正确配置 robots.txt 对于控制被索引内容、保护敏感目录、管理爬取预算以及防止 AI 模型使用您的内容进行训练至关重要。

robots.txt 解析器的工作原理

此工具根据 Googlebot 所遵循的相同规则解析您的 robots.txt，包括以下关键行为：

User-agent 匹配：解析器首先查找针对您所选爬虫的特定节。如果未找到特定匹配，则回退到 User-agent: * 通配符节。
Allow 与 Disallow 的优先级：当 Allow 和 Disallow 规则同时匹配同一 URL 时，最具体的规则获胜（即匹配路径最长的规则）。如果长度相等，则 Allow 优先。
通配符支持：星号 (*) 匹配任意字符序列。美元符号 ($) 将模式锚定到 URL 末尾。例如，Disallow: /*.pdf$ 会阻止所有以 .pdf 结尾的 URL。
大小写敏感性：指令名称（User-agent、Disallow）不区分大小写，但 URL 路径匹配时区分大小写。

在 robots.txt 中阻止 AI 爬虫

随着大语言模型的兴起，许多站点所有者希望阻止其内容被用于训练数据。主要 AI 公司已推出可阻止的特定用户代理字符串：

GPTBot 和 ChatGPT-User — OpenAI 用于模型训练和 ChatGPT 网页浏览的爬虫。
ClaudeBot 和 Claude-Web — Anthropic 用于 Claude 训练数据和网页访问的爬虫。
CCBot — Common Crawl 的爬虫，其数据集用于训练众多开源模型。
Google-Extended — Google 为 Gemini AI 训练提供的选择退出选项（与 Googlebot 搜索索引分离）。
PerplexityBot — Perplexity AI 用于其搜索产品的爬虫。
Bytespider — 字节跳动的爬虫，关联 TikTok 的 AI 项目。

您可以阻止所有 AI 爬虫，同时仍允许搜索引擎爬虫索引您的站点。使用此测试工具验证规则是否按预期工作，并使用我们的 Robots.txt 生成器从零构建格式正确的文件。

常见 robots.txt 错误

即使是有经验的站长也会在 robots.txt 中犯下以下错误：

阻止 CSS 和 JS 文件：Google 需要渲染页面以理解其内容。阻止样式表或 JavaScript 会影响排名。
使用 robots.txt 而非 noindex：robots.txt 阻止爬取，但不阻止索引。如果其他站点链接到被 robots.txt 阻止的页面，该页面仍可能出现在搜索结果中（无摘要）。
忘记结尾斜杠：Disallow: /admin 会阻止 /admin 和 /admin/page，但也会阻止 /administrator。使用 /admin/ 可更精确。
更改后未进行测试：一次拼写错误可能意外阻止整个站点。编辑后务必使用此类工具进行测试。

将此测试工具与我们的 Schema 生成器和 SERP 预览器配合使用，以确保搜索引擎既能访问您的内容，又能以吸引人的方式展示。

常见问题

什么是 robots.txt 文件？

robots.txt 文件是放置在网站根目录的纯文本文件（例如 example.com/robots.txt），用于告知搜索引擎爬虫哪些页面可以访问、哪些不可以访问。它遵循 Robots Exclusion Protocol，是爬虫在扫描站点前首先检查的文件。

robots.txt 中的通配符如何工作？

robots.txt 支持两种通配符字符：星号 (*) 匹配任意字符序列，美元符号 ($) 将匹配锚定到 URL 末尾。例如，"Disallow: /*.pdf$" 会阻止所有以 .pdf 结尾的 URL，而 "Disallow: /private*" 会阻止所有以 /private 开头的 URL 路径。

我应该阻止像 GPTBot 和 ClaudeBot 这样的 AI 爬虫吗？

这取决于您的内容策略。阻止 AI 爬虫可防止您的内容被用于训练语言模型。许多出版商会阻止这些爬虫以保护原创内容，而有些则允许以获得更广的曝光。您可以在阻止 AI 爬虫的同时，仍然允许传统搜索引擎爬虫访问。

robots.txt 会阻止页面出现在 Google 中吗？

并非完全阻止。robots.txt 阻止爬虫读取页面内容，但如果其他站点链接到该 URL，Google 仍可能对其进行索引。结果会显示 URL，但说明不可用。若想彻底阻止索引，需要使用 "noindex" 元标签或 X-Robots-Tag HTTP 头，配合或替代 robots.txt。

robots.txt 测试工具

粘贴您的 robots.txt

Test Result

高亮显示的 robots.txt

规则细分

分析提示

监控您的Crawl Health

什么是 robots.txt 文件？

robots.txt 解析器的工作原理

在 robots.txt 中阻止 AI 爬虫

常见 robots.txt 错误

常见问题

什么是 robots.txt 文件？

robots.txt 中的通配符如何工作？

我应该阻止像 GPTBot 和 ClaudeBot 这样的 AI 爬虫吗？

robots.txt 会阻止页面出现在 Google 中吗？

robots.txt 测试工具

粘贴您的 robots.txt

Test Result

高亮显示的 robots.txt

规则细分

分析提示

监控您的Crawl Health

什么是 robots.txt 文件？

robots.txt 解析器的工作原理

在 robots.txt 中阻止 AI 爬虫

常见 robots.txt 错误

常见问题

什么是 robots.txt 文件？

robots.txt 中的通配符如何工作？

我应该阻止像 GPTBot 和 ClaudeBot 这样的 AI 爬虫吗？

robots.txt 会阻止页面出现在 Google 中吗？

相关工具

Robots.txt 生成器

AI Bot 访问测试器

站点地图生成器

.htaccess 测试器