检查 GPTBot、ClaudeBot 和 Google-Extended 等 AI 爬虫是否能够访问您的网站。分析 10 大 AI 机器人的 robots.txt 规则和 HTTP 响应。
在 2025 年及以后,AI 驱动的搜索引擎和助手已成为网站流量的主要来源。ChatGPT、Google Gemini、Claude、Perplexity 等工具会爬取网络为用户提供答案。如果您的站点阻止这些爬虫,您的内容将不会出现在 AI 生成的答案中,可能导致显著的可见性和流量损失。
与此同时,一些 AI 机器人仅为 训练模型 而爬取您的内容,并不会直接为您的站点带来流量。了解训练爬虫与搜索/浏览爬虫的区别,可帮助您做出关于允许哪些机器人访问的明智决策。
您有两种主要方法来控制哪些 AI 机器人访问您的站点:
User-agent: GPTBot 并随后使用 Disallow: / 来阻止特定机器人。这是所有主要 AI 爬虫遵守的标准自愿协议。将此工具与我们的 SERP 预览器 结合使用,以确保您的内容在传统搜索和 AI 驱动的搜索结果中都表现出色,并使用我们的 本地排名检查器 监控您的可见性随时间的变化。
主要的 AI 公司部署网页爬虫来训练模型并驱动如 ChatGPT 浏览、Gemini、Claude 和 Perplexity 搜索等功能。我们测试的 10 种机器人包括 GPTBot、ChatGPT-User、ClaudeBot、Google-Extended、Bytespider、CCBot、FacebookBot、PerplexityBot、Applebot-Extended 和 Cohere-AI。控制这些机器人的访问权限决定了您的内容是否用于 AI 训练以及是否出现在 AI 生成的答案中。
在您的 robots.txt 文件中添加规则。例如,"User-agent: GPTBot" 后跟 "Disallow: /" 可阻止 OpenAI 的训练爬虫。每个机器人都有唯一的 user-agent 字符串。您可以有选择地阻止某些机器人,同时允许其他机器人——例如,阻止 GPTBot(训练)但保留 ChatGPT-User(浏览)允许,这样您的内容仍可出现在 ChatGPT 对话中。
这取决于您的目标。阻止像 GPTBot 或 CCBot 这样的训练爬虫可防止您的内容用于训练 AI 模型,部分出版商出于版权原因会这样做。然而,阻止面向搜索的机器人如 ChatGPT-User 或 PerplexityBot 会导致您的内容不出现在这些 AI 助手的答案中。许多站点所有者会阻止训练爬虫,同时允许 AI 搜索爬虫。
robots.txt 是一种自愿标准——行为良好的爬虫会先检查它,但没有技术手段强制遵守。HTTP 级别阻止通过服务器配置,根据 user-agent 检测主动返回 403 Forbidden 响应来拒绝请求。HTTP 阻止更具强制性。为了获得最大保护,建议同时使用两种方法。